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AVERTISSEMENT 


Ce dictionnaire est un dictionnaire généraliste principalement destiné aux étudiants des 
premières années d’université et aux utilisateurs professionnels non mathématiciens. 

Une attention toute particulière a été portée aux étudiants et aux utilisateurs dans les 
domaines des sciences expérimentales et des sciences économiques et sociales. Dans le souci 
de leur fournir un outil de travail adapté, les articles ont été rédigés en restant au niveau 
mathématique le plus élémentaire possible. En outre, chaque fois que cela apparaît néces- 
saire, la définition est précédée par une courte introduction en langage « courant ». 

Certains termes et concepts mathématiques de base, en nombre très restreint et dont la 
vertu est de clarifier les définitions et d’éviter les ambiguïtés, sont néanmoins utilisés. En 
particulier, on se réfère souvent à l’espace probabilisé (Q, À, P), notion qui se comprend 
facilement : Q est l’ensemble de tous les résultats possibles, À est l’ensemble de tous les 
événements auxquels on pourra attribuer une probabilité, et P est cette mesure de probabilité, 
dont les valeurs sont comprises entre 0 et 1... le niveau d’abstraction n’est pas insupportable ! 

Toujours dans le souci de la meilleure efficacité, ce dictionnaire a un parti pris de 
redondance : redondance de contenu entre les articles, et souvent redondance du vocabulaire 
à l’intérieur de chaque article. 

Enfin, ce dictionnaire inclut un certain nombre d’articles, ou de parties d’articles, dont on 
pourrait qualifier le niveau mathématique d’intermédiaire, qui lui permettront d’être égale- 
ment utile aux étudiants de mathématiques des premières années. 


Nous avons choisi de garder pour certains concepts le vocabulaire usuel même lorsqu'il n’est 
pas très bien choisi et représente un héritage malheureux des siècles précédents (la 
« variable » aléatoire !). En outre la terminologie n’est pas complètement fixée. Nous avons 
systématiquement indiqué les variantes les plus courantes. En tout état de cause, si l’utilisateur 
trouve insolite l’utilisation d’un mot dans tel ou tel manuel, il ne doit pas se laisser perturber, 
mais chercher simplement quel sens précis a ce mot dans ce manuel. La même remarque peut 
être faite pour les notations. Seule exception à notre ouverture aux notations variées, nous 
noterons P(A) la probabilité de l’événement À, et n’utiliserons jamais Pr(A) ou Prob(A). 

Un détail enfin : en règle générale, toutes les valeurs numériques qui sont données dans les 
exemples sont des valeurs approchées (par arrondi à la décimale la plus proche) sans que cela 
soit marqué par la (trop lourde) présence de points de suspension. Bien entendu, une valeur 
approchée peut aussi être exacte, et il est laissé au lecteur le soin de le détecter. 


Quelques conseils matériels d'utilisation 
> Lorsqu'une expression contient plusieurs mots, l’article correspondant est répertorié au 
mot le plus significatif (mais de nombreux renvois facilitent la recherche). 


> Les crochets dans une entrée d’article ou un synonyme encadrent une partie optionnelle 
de l’expression. 

> Les mots du texte qui renvoient à une autre entrée sont mis en italiques. 

»> Enfin, quelques rares expressions n’ont aucun équivalent dans l’usage anglo-saxon (par 
exemple « épreuves répétées »), elles ne sont donc pas traduites. 


François Dress 
dress @math.u-bordeaux.fr 
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absolument continue (variable aléatoire) (absolutely continuous 


random variable) 
Voir variable aléatoire (typologie). 


acceptation (région d') 


Voir région d'acceptation. 


(acceptance region) 


additivité (additivity) 
Soit un espace probabilisable (Q, 4). On s’intéresse aux applications définies sur l’ensemble 
À des évènements et à valeurs réelles positives, et on veut caractériser la propriété qui fera 
d’elles des mesures (en langage mathématique général) ou des mesures de probabilité alias 
probabilités (en langage spécifique au calcul des probabilités). 

À un niveau élémentaire, on se limite à la réunion finie, avec deux formules qui sont d’un 
usage extrêmement fréquent (P est une mesure de probabilité) : 

P(A U B) = P(A) + P(B) 

P(A U B) = P(A) + P(B) - P(A NB) 

Exemple On considère une population humaine P et le système ABO de groupes sanguins. 


Les probabilités qu’un individu tiré au hasard dans la population P présente l’un des 6 géno- 
types possibles dans ce système sont données par le tableau ci-dessous : 


si À et B sont disjoints : 
de façon générale : 


O0 OA AA OB BB AB 


0,435 0,364 0,076 0,086 0,004 0,035 


Si l’on examine maintenant les phénotypes, l'évènement « phénotype A » est constitué par la 
réunion des évènements « OA » et « AA », qui sont disjoints, et sa probabilité est donc 
P(OA) + P(AA) = 0,440. 
À un niveau plus approfondi, il faut envisager la réunion infinie dénombrable, pour laquelle 
l’axiome de 6-additivité énoncé ci-dessous doit être vérifié. 
On dit qu’une application u : À — [0, + «[ est 6-additive si, pour toute suite (A,)(n = 1, 2, ...) 
d’éléments de À, deux à deux disjoints, on a : 


H{U A) = Y H(A,) 


n=l n=l 


On notera une conséquence importante : si les À, forment une suite croissante (au sens de la 


théorie des ensembles, ie. si A, € A, ,), alors u( (S A,) = limu(A,). 
= n — © 


Voir espace probabilisé, mesure de probabilité, Poincaré (formule de). 


2 affine (fonction) 


affine (fonction) (affine function) 


Fonction de la forme y = a + bx que l’on rencontre notamment en statistique comme courbe 
de régression. Une telle fonction est souvent appelée « linéaire » par abus de langage. 


ajustement linéaire, polynomial, exponentiel, 

logarithmique (fitting) 
On considère deux grandeurs numériques x et y intervenant dans l’étude d’un phénomène. 
On suppose qu’il existe une liaison entre ces deux grandeurs, et que cette liaison est aléatoire 
(qu’il s’agisse d’un phénomène déterministe pertubé par exemple par des erreurs de mesure, 
ou d’un phénomène intrinsèquement aléatoire). Le plus souvent, cette liaison sera repré- 
sentée — ou sera présumée pouvoir être représentée — par une relation mathématique simple, 
par exemple : y = bx (liaison linéaire), y = a + bx (liaison affine, le plus souvent qualifiée 
aussi de linéaire), y = bx? (liaison puissance), y = ap + aix + … + a,x" (liaison polynomiale), 
y = ae (liaison exponentielle), y = a + b In x (liaison logarithmique). 

Le problème se pose alors, connaissant un ensemble de points expérimentaux (un « nuage », 
dans le vocabulaire statistique), de trouver la forme mathématique de la liaison et les 
«bons » coefficients (ou paramètres) numériques. Lorsque le phénomène sera déterministe 
pertubé aléatoirement, le nuage de points sera très voisin de la courbe y=f(x) que l’on 
cherche à déterminer. Lorsque le phénomène sera intrinsèquement aléatoire, le nuage sera 
plus dispersé et la courbe y = f(x) sera la courbe qui passera au mieux au « milieu » du nuage 
des points. La courbe ainsi déterminée, dans un cas comme dans l’autre, sera appelée courbe 
d’ajustement ou, dans le cas particulier affine, droite d'ajustement. 

S1 ((X1; Y1), C2, Ya), …, (ty Y,)) est le nuage de points, et si f=f,, ,, … est la « forme » connue 
ou présumée de la relation mathématique, dépendant des paramètres a, b,..., la méthode 
standard (due à Gauss et Legendre) s’appelle la méthode des moindres carrés : elle consiste 
à déterminer les valeurs des paramètres a, b,... comme celles qui minimisent la somme des 


carrés des écarts > (y; -f(x;))2. Dans le cas particulier affine et dans une situation de type 
n=l 

déterministe pertubé aléatoirement, on obtient ainsi la droite des moindres carrés. 

Dans une situation de type intrinsèquement aléatoire, la somme des carrés des écarts n’est pas 
exactement une variance, mais elle est directement liée aux variances des variables aléatoires 
que l’on doit introduire pour modéliser la situation. L'ensemble des conditions à satisfaire 
inclut une minimisation de la variance et on aboutit exactement aux mêmes formules et aux 
mêmes valeurs des paramètres. Le contexte probabiliste-statistique induit un changement de 
vocabulaire : plutôt que de droite d’ajustement ou de droite des moindres carrés, on parle de 
droite de régression ; plutôt que de courbe d’ajustement, on parle de courbe de régression. 
Signalons pour terminer que les liaisons linéaire, affine et polynomiale sont directement trai- 
tées par les techniques (équivalentes) de moindres carrés ou de régression linéaire, tandis que 
les liaisons puissance et exponentielle sont le plus souvent ramenées aux cas précédents par 
passage aux logarithmes : y = bx? devient In y = In b + p In x, y = ae“* devient In y = In a + kx. 


ajustement 
Voir droite d'ajustement et khi-deux d'ajustement (test du). 


aléatoire (random) 


Cet adjectif qualifie dans la langue courante des phénomènes dont les « résultats » sont varia- 
bles, non ou mal mafîtrisables, imprévisibles, ..…, et s’oppose à « déterministe ». Il est égale- 
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analyse de la variance (test d') 3 


ment employé, avec un sens mathématique codifié, dans des expressions qui désignent 
certains concepts du calcul des probabilités (expérience aléatoire, variable aléatoire, 
processus aléatoire, .…). 

Le calcul des probabilités a pour but la « modélisation » des phénomènes aléatoires, dès lors 
qu’ils sont reproductibles dans des conditions identiques. Selon les cas, cette reproduction 
pourra être provoquée par l’homme (expérimentation), ou sera « naturelle » (observation). 
La reproductibilité est essentielle notamment pour fonder l’estimation des probabilités, ce 
qui explique l’extrême difficulté — conceptuelle et pratique — d'évaluer la probabilité d’un 
évènement très rare. 

On notera que la variabilité des phénomènes qualifiés d’aléatoires peut être soit intrinsèque 
(variabilité d’un caractère biologique, imprévisibilité d’une désintégration radioactive), soit 
liée à l’imprécision ou à l’erreur de la mesure de la grandeur qui peut être déterministe. 

Voir hasard, modélisation, variable aléatoire. 


algèbre d'évènements (field of events) 


Famille (ensemble) A d'évènements qui vérifient les propriétés qui caractérisent une « algèbre 
de Boole » de parties d’un ensemble E : appartenance de E à À, « stabilité » par réunion finie 
et par passage au complémentaire. 

Si on ajoute la stabilité par réunion dénombrable, on obtient une 6-algèbre ou tribu. 


o-algèbre 
Voir tribu. 


alphabet grec 
Voir grec (alphabet). 


amplitude (amplitude) 
Terme souvent utilisé pour désigner la largeur d’une classe (bornée) : l’amplitude de la classe 
la; dj+ il est la;+ 1— a;|. 


analyse combinatoire (combinatorial analysis, combinatorics) 


Branche des mathématiques qui étudie les « configurations », formées à partir d’« objets » 
pris dans un ensemble fini donné et disposés en respectant certaines contraintes ou certaines 
structures fixées. Les deux problèmes principaux sont l’énumération des configurations, et 
leur dénombrement. 

Les dénombrements (arrangements, combinaisons, permutations) jouent un rôle important 
en probabilités combinatoires, où l'hypothèse d’équiprobabilité ramène la détermination des 
probabilités à des comptes d'évènements élémentaires. 


analyse de la variance (test d’) (variance analysis test) 


Test paramétrique qui permet de comparer globalement plusieurs espérances mathématiques 
entre elles. La dénomination du test s’explique par son fonctionnement, qui décompose la 
variance de l’ensemble des observations en deux variances partielles, la première fournissant 
une estimation « inter-classes » de la variance commune, et la seconde une estimation 
«intra-classes » (ou « résiduelle »). On teste ensuite le quotient : si la première estimation 
est sensiblement plus grande que la deuxième, on rejette alors l’hypothèse H,, d'égalité de 
toutes les espérances. 


4 analyse de la variance (test d') 


test de comparaison 
de q espérances mathématiques pi; , l, .…, Ha 
+ Données. q classes ou groupes, soit pour chaque k (1 £k< q) : un échantillon (xy1, Xp, …, Xp, 


de n, valeurs observées d’une variable aléatoire numérique X, d’espérance mathématique My é 
note N le nombre total n; + n, +... + n, de valeurs observées. 
. Hypothèse testée. H, = «= =..=u,» contre H; = «il existe au moins deux espé- 
rances différentes ». 
+ Déroulement technique du test 
la. Pour chaque k, on calcule la moyenne de l’échantillon n° K: 
Xe À Xg2 + ee + Apr, 
Mg = ———— . 
ñy 

1b. On calcule la moyenne générale : 

NM + MM +. +n,m 


qq 
= . . 
2. On calcule les 2 sommes de carrés qui « analysent » la variance complète : 
q 
Q: = D n(mx-M), 
k=1 
q 7x 
Q = DS Gxu-m)? 


k=i\i=l 
q FR 
(nota : la somme Q, + Q, est la somme complète y > M} |. 
k=I1\iz=i 


2 Q . . 
On calcule ensuite 5} = 2e , estimation « inter-classes » de la variance commune, et 
qg-1 

ne D. Æ 

52 = , estimation « intra-classes » (« résiduelle »). 

N-q 

3. On calcule enfin la valeur observée de la variable de test : 

F si 
g-LN-q — 5: 

S2 


Les valeurs de référence de la variable de test sont à lire dans les tables de la loi de 
Fisher-Snedecor. Elles dépendent des deux degrés de liberté g-1 et N-gq, et du 
risque ot. On notera que les tables de la loi de Fisher-Snedecor sont unilatérales. En effet, 
si H, est fausse, alors l’estimation inter-classes de la variance ne peut être qu’augmentée. 
+ Conditions et précautions 
— En théorie les X, doivent être des v.a. normales ; en outre elles doivent avoir même 
variance, exigence difficile à apprécier et à contrôler... S’il semblait que cela ne soit pas le 
cas, on peut appliquer le (test de) Bartlett, ou bien rechercher dans un ouvrage spécialisé 
d’autres procédures applicables ; 
— lorsque les X, ne sont pas normales, le test est robuste et reste applicable si les effectifs 
des groupes sont « assez grands ». 
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analyse de la variance à un facteur 5 


analyse de la variance à un facteur (one-way ANOVA) 


Méthode d’analyse d’une situation où l’on expérimente l’effet d’un facteur sur une variable, 
facteur supposé agir exclusivement sur l’espérance mathématique. Dans un premier temps de 
l’analyse, on teste l’existence d’un effet du facteur par le (test d”) analyse de la variance : la 
variance inter-classes s’interprète alors comme la part de variance due au facteur considéré, 
et le terme de variance résiduelle se justifie alors pleinement. 

Si l'hypothèse H, est rejetée, cela signifie que le facteur a un effet, et dans un deuxième 
temps de l’analyse, on estime les espérances dont l’ensemble décrit l’effet du facteur. 

La présentation globale et les notations données ci-dessous sont très légèrement différentes 
de celles du test d’analyse de la variance, de façon à pouvoir les généraliser naturellement au 
cas de deux facteurs. 


analyse de la variance à un facteur A 


° Données. p classes ou groupes, avec pour chaque niveau i (1 < i < p) du facteur : un échan- 
üllon (x;1, Xi, …, x;,. ) de n; valeurs observées d’une variable aléatoire numérique X; d’espé- 
L 


rance mathématique l.. 
On note N le nombre total n, + n, +. + n, de valeurs observées. 
+ Modèle étudié 


Les observations individuelles sont de la forme X;=u;+E;, où E; est un écart de loi 
normale centrée et d’écart-type 6 (indépendant de l’effet du facteur A). 


On pose Li; = | + ©, où L représente la moyenne globale et oi; l’effet du facteur A (en conve- 
nant que la moyenne pondérée des effets est nulle). 


> Premier temps 

* Hypothèse sur l’effet du facteur. H, = «le facteur ne possède aucun effet >» = «Li, = 
=. =,» contre H; = « il existe au moins deux espérances différentes ». 

+ Déroulement technique du test 

— On calcule la moyenne observée m; de l’échantillon n° i ; 


— on calcule la moyenne générale observée M (moyenne pondérée des m;) ; 


— on calcule les sommes de carrés relatives aux parts de variance observées et on regroupe 
les résultats comme indiqué dans le tableau suivant : 


Sngine : Somme de carrés ddl ÉDnenon Test F 
de la dispersion de la variance 
p On: Q 
L M2 : _Q_ 
totale Q = > y (Xiÿ-M) N-1 TEE 
i=1j=1 
É 2 Qh SA 
facteur A Qù = Y'(m;-My? p-1 AR Eng = 5 
i=1 R 
ésiduell QR=Q-Q N 3 Or 
résiduelle R = A —p SR = 5 
—P 


Les valeurs de référence de la variable de test sont à lire dans les tables de la loi de Fisher- 
Snedecor. 


6 analyse de la variance à deux facteurs 


+ Conditions et précautions. Voir analyse de la variance (test d’). 
> Deuxième temps (en cas de rejet de Hi) 


estimations des effets 
— est estimée par M, 
— les o!; sont estimés par m;- M. 


analyse de la variance à deux facteurs (two-way ANOVA) 


Méthode d’analyse d’une situation où l’on expérimente l’effet de deux facteurs sur une 
variable, facteurs supposés agir exclusivement sur l’espérance mathématique. Il faut distin- 
guer les effets séparés des deux facteurs et envisager a priori une interaction possible. 

Dans un premier temps de l’analyse, on teste l’existence de l’effet des facteurs et l’existence 
d’une interaction par plusieurs tests de type analyse de la variance. 

Si l’un ou l’autre de ces tests rejette l’hypothèse de non-existence d’un effet, il faut alors, 
dans un deuxième temps de l’analyse, estimer les espérances dont l’ensemble décrit les effets 
des deux facteurs ainsi que leur interaction. 

Il existe plusieurs « plans d’expérience » possibles pour préciser le détail de l’expérimenta- 
tion. Les formules qui suivent concernent les deux plans d’expérience les plus courants, qui 
sont des plans « complets » et « équilibrés » : toutes les associations entre un « niveau » du 
premier facteur et un niveau du second sont observées, et toutes les classes présentent le 
même nombre 7 d'observations. Le premier plan est « à répétitions » (r 22), le deuxième 
sans répétition (r = 1), auquel cas l’on ne peut pas évaluer les interactions et l’on estime 
seulement l’effet des deux facteurs. 


1. analyse de la variance à deux facteurs A et B 
plan d'expérience complet équilibré avec répétitions 


+ Données. pq classes ou groupes, avec pour chaque couple (i, j) (1 <i<p, 1<j<q) de 
niveaux des facteurs : un échantillon (x;:, x;», …, x;,) de r valeurs observées d’une variable 
aléatoire numérique X;; d'espérance mathématique L;.. 
Le nombre total N de valeurs observées est égal à pqr. 


+ Modèle étudié. Les observations individuelles sont de la forme X;;4= 11; + E;;, où E;; est 
un écart de loi normale centrée et d’écart-type 6 (indépendant de l’effet des facteurs A et B 
et de leur interaction). 

On pose lL;; = LU + 0; + B; + Y; Où L représente la moyenne globale et a; l’effet du facteur A, 
B; l'effet du facteur B, y; l'interaction entre A et B (en convenant que la moyenne pondérée 
des effets et de l’interaction est nulle). 


> Premier temps 


+ Hypothèse globale sur l'existence d’effet(s). H, = « il n’y a aucun effet » = « toutes les LL; 
sont égales » contre H, = « il existe au moins deux espérances différentes ». 


+ Déroulement technique du test 

— On calcule la moyenne observée m;; de chaque classe (&, j) ; 

— on calcule les moyennes marginales observées mm; et m,;; 

— on calcule la moyenne générale observée M ; 

— on calcule les sommes de carrés relatives aux parts de variance observées et on regroupe 
les résultats comme indiqué dans le tableau ci-contre. 

— on effectue trois tests séparés, les valeurs de référence de la variable de test sont à lire dans 
les tables de la loi de Fisher-Snedecor. 
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analyse de la variance à deux facteurs 7 
Origine Estimation 
de la Somme de carrés ddl de la Test F 
dispersion variance 
CE: o 
= 2 = PEUR 
totale Q = > hs CXijk— M) pqr-1 Pat 
i=1j=1k=1 
: 2 Qù à 
= 2 = = ZA 
facteur A Qn = gr ÿ (m; - M) p-1 rar Fo 4 patr-1) © F 
: R 
q : 52 
2 B 
facteur B Q8 = prY (m;- My? qg-1 #= TT Énrsn L 
je R 
Que = 
interaction . ie = Se 
: (p-1)(g-1) Fp=1)(g- 0, patr-1) © _ 
AB rY > (mi mm; + M} Us s 
— (p-1)(g-1) 
i=1 j=1 
résiduelle QR = Q- On Q - Que pq(r-1) sè = _R 
pq(r-1) 


+ Conditions et précautions. Voir analyse de la variance (test d’). 


> Deuxième temps (en cas de rejet de Hi) 


* estimations des effets 
— est estimée par M ; 
— les à; sont estimés par m;, — M, les B; sont estimés par m,; - M ; 


— les y;; sont estimés par m;; —- m 


J 


2. analyse de la variance à deux facteurs A et B 


— M;, + M. 


plan d'expérience complet équilibré sans répétition 


+ Données. pq classes ou groupes, avec pour chaque couple (i, j) (1 <i<p, 1 <j<q) de 
niveaux des facteurs : une valeur unique x;; observée d’une variable aléatoire numérique X;; 
d'espérance mathématique ;; 
On note N le nombre total pq de valeurs observées. 


+ Modèle étudié. Les observations individuelles sont de la forme X;;,= m;;+E 


ij> 


où E;; est un 


écart de loi normale centrée et d’écart-type 6 (indépendant de l’effet des facteurs A et B). 
On pose Li; = pi + 0; + B;, où 1 représente la moyenne globale et à; l’effet du facteur À, B; 
l’effet du facteur B (en convenant que la moyenne pondérée des effets est nulle). 


> Premier temps 


+ Hypothèse globale sur l’existence d’effet(s). H, = « il n’y a aucun effet » = « toutes les l;; 
sont égales » contre H, = « il existe au moins deux espérances différentes ». 


+ Déroulement technique du test 
— On calcule les moyennes marginales observées m;, et m,; : 
— on calcule la moyenne générale observée M ; 


8 analyse des données 
— on calcule les sommes de carrés relatives aux parts de variance observées et on regroupe 
les résultats comme indiqué dans le tableau suivant : 
grgme d Somme de carrés ddl EStimanon de Test F 
la dispersion la variance 
pq o 
totale Q = (x;;- M) 1 ——— 
>, > : pq CT 
i=1 j=1 
. 2 Qù ä 
= 2 . he - À 
facteur A | Q\ = qÿ(m;-M) p-1 AT 1 Fp_1,(p- 1-1) © E 
i=1 
Ÿ 2 Q $ 
= 2 - 
facteur B @% =pY(m;-M) qg-1 %& = a F1, (1-1) = 3 
= R 
résiduelle = Q-Q-@% P-1)q-1) | sà = __— 
(p-1)(q-1) 


— on effectue deux tests séparés, les valeurs de référence de la variable de test sont à lire 
dans les tables de la loi de Fisher-Snedecor. 


+ Conditions et précautions. Voir analyse de la variance (test d’). 
> Deuxième temps (en cas de rejet de Ho) 

* estimation des effets 

— est estimée par M ; 


— les ©; sont estimés par m;, — M, les B; sont estimés par m,; — M. 


analyse des données 


Cette expression possède aujourd’hui un sens très précis en mathématiques. Elle désigne 
globalement l’ensemble des méthodes qui permettent de traiter les situations qui impliquent 
un grand nombre de caractères et un grand nombre de données. Ces méthodes nécessitent 
beaucoup de calculs et ont fleuri depuis que l’informatique leur permet d’être mises en 
œuvre. Souvent très élaborées, elles sont néanmoins très « descriptives » et par conséquent 
utilisables non seulement dans des situations probabilistes standard, mais aussi dans des 
situations non probabilisables (données sociologiques ou statistiques économiques par 
exemple). Elles reposent pour beaucoup sur une analyse géométrique et algébrique de la 
représentation des données dans un espace (abstrait) de grande dimension (où, par exemple, 
les coefficients de corrélation peuvent être interprétés comme des cosinus d’angles). Elles 
s'intéressent à la fois aux caractères (détermination des liaisons) et aux individus (par 
exemple sous-structures du nuage de points). 


(multivariate analysis) 


La méthode qui se trouve dans le prolongement direct de la corrélation et de la régression 
linéaire s’appelle l’« analyse en composantes principales ». Les autres méthodes portent les 
noms d’analyse (factorielle) discriminante, d’analyse des correspondances, de classification 
hiérarchique, etc. Toutes les méthodes d’analyse des données débouchent (mais non exclusi- 
vement) sur des représentations graphiques, et certaines sont fréquemment utilisées dans les 
médias. 
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ANOVA (ANalysis Of VAriance) 


Voir analyse de la variance (test d’), analyse de la variance à un facteur, 
analyse de la variance à deux facteurs. 


aplatissement (coefficient d') (kurtosis coefficient, excess coefficient) 
Nombre réel sans dimension, indicateur de forme, qui mesure l’aplatissement d’une distribu- 
tion probabiliste ou statistique. 
On considère une variable aléatoire réelle (ou une variable statistique), dont les moments 
centrés d’ordre 2 et 4 sont : 

LL = 06? et 4 (ou m,=5? et m). 


Le coefficient d’aplatissement est le quotient 


Un coefficient apparemment plus simple : fj, = = (ou ") , avait été introduit par Pearson. 

s 
Comme sa valeur est égale à 3 pour une loi normale, Fisher a retranché 3 pour traduire l’idée 
que l’aplatissement standard (coefficient nul) est celui de la loi normale. Le coefficient y, est 
compris entre — 2 et + +, Ce coefficient est négatif pour une distribution étalée (on dit parfois 
« platicurtique »), positif pour une distribution pointue (on dit parfois « leptocurtique »). Il 
faut toutefois noter que son signe n’est vraiment significatif que pour une distribution à peu 
près symétrique. 


Exemple Pour une distribution continue uniforme sur [0, 1], on a H, =62= L et 


12 
Hu = ü , d’où Y=-1,2 (on aurait bien entendu la même valeur pour une distribution 
continue uniforme sur un intervalle [a, b] quelconque). 
appariées (séries) / appariés (échantillons) (paired samples) 


Terminologie qui s’oppose à échantillons indépendants et qui désigne, dans un test d’hypo- 
thèse, la constitution d’un échantillon « par paires ». 

Dans un test de comparaison sur des échantillons indépendants, on considère deux varia- 
bles numériques X et Y et on constitue deux échantillons d’observations (x,, x, …, Xnx jet 


D Vo dr ) : les ny individus pour lesquels ont été observées les 74 valeurs de X sont a 


priori différents des n, individus pour lesquels ont été observées les n,4 valeurs de Y (et en 
général ñnx # ny) ; les échantillons sont donc indépendants, au sens usuel et au sens proba- 
biliste, et le test compare par exemple les espérances LL, et Ly: 

Dans un test de comparaison sur des séries appariées, on considère autant de couples (de 
«paires ») de variables numériques (X,, Y;) qu’il y a d’individus sur lequels seront effectuées 
les observations (dans certains cas les deux observations seront faites non pas sur le même 
individu mais sur deux individus « similaires »). Les lois des X; et des Y; ne font pas l’objet 
d’un présupposé d’uniformité et on teste seulement la différence entre X, et Y; (certains de 
ces tests sont parfois appelés tests de différences couplées). Le postulat du test est alors qu’il 
y a une unique variable D dont les différences observées d, = y, — x; constituent un échan- 
tillon, et l’on teste la symétrie de D ou une de ses conséquences, par exemple LU, = 0. Il arrive 


10 arbre 


que la formulation employée (par exemple « [14 = 4 » au lieu de « li, = 0 ») masque cette 


problématique simple, et donne l’impression que l’on compare deux variables X et Y, dont 
les X; et les Y; seraient des exemplaires particuliers aux individus. 


arbre (tree) 


Technique de représentation des espaces probabilisés lorsque chaque évènement élémentaire 
peut se décrire comme une suite (temporelle ou logique) d'évènements. Le vocabulaire stan- 
dard des arbres en combinatoire ou en informatique est le suivant : un arbre est constitué par 
une « racine », d’où partent des « branches », qui conduisent à des « nœuds » ; aux extré- 
mités se trouvent les « noeuds terminaux », appelés parfois « feuilles ». L'orientation du 
dessin est le plus souvent avec la racine en haut ou à gauche. 


etc. 


P(AB) = P(A)P(B;1A) 


Lorsqu'on utilise un arbre pour représenter un espace probabilisé, on porte les probabilités 
conditionnelles sur les branches, et les probabilités « absolues » aux nœuds (le « nœud 
racine » porte la probabilité 1). À chaque nœud, on calcule la probabilité absolue comme la 
probabilité absolue du nœud précédent multipliée par la probabilité conditionnelle de la 
branche qui le relie au nœud considéré. Ce calcul est la version « arborescente » de la 
(formule des probabilités) composées généralisée : 


P(A;B) = P(A;) P(B; |A), 
P(A;B;C) = P(A) PGB, |A; P(Cy |A;B)), 
etc. 


Exemple On considère une urne 
avec 10 boules : 5 Rouges, 3 Vertes et 
2 Bleues. On effectue deux tirages 
sans remise et on cherche la proba- 
bilité P que les deux boules tirées 
soient de même couleur. 


L’évènement « même couleur » est la 
réunion des 3 évènements élémen- 
taires RR, VV, BB. Leurs probabilités 
se lisent immédiatement sur l’arbre ci- 
contre et on a: 

= 20 " 6 ” 2 _ 28 


— = — = 0,311. 
90 90 90 90 
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arc sinus (loi de |') (inverse sine distribution, arc sine distribution) 
Loi d’une variable aléatoire continue entre O0 et 1, que l’on peut imaginer comme la 


œ 
« projection » sur une droite d’une distribution uniforme sur un cercle. 
ee, mA 
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Formulaire — 
Version standardisée X sans paramètre, à valeurs sur l’intervalle ]0, 1[. as 
> Loi de probabilité 
fA FA : 
| z 
| | _ 
| | 
I > I > O 
0 1 x 0 1 x 
densité fonction de répartition © 
1 2 | 
fG) = — (0<x<1) F(x) = £ Arc sin 4x (O<x<1) © 
T4/x(1 — x) T 
= À As cos (1-2x) (0<x<1) is 
T 
> Valeurs caractéristiques " 
— espérance : E(X) = : ; =. 
1 | em) 
— variance : Var(X) = & : 
Ce 
: 1 
— écart-type : G(X) = —. 
2,2 = 
Il existe une deuxième version standardisée Y, à valeurs sur l’intervalle ]-1, 1[ _ 
> Loi de probabilité 
<< 
toe- dd. pisser Frost laenmetiéisn 
T4/1 — x2 27 … 


12 arithmétique (triangle) 


> Valeurs caractéristiques 
— espérance : E(X) = 0 ; 


— variance : Var(X) = ; ; 


— écart-type : G(X) = + : 


2 


Remarque : les fonctions Arc sin et Arc cos sont les « fonctions réciproques » des 
fonctions sinus et cosinus : 


Arc sin x (x <1)& x = siny et —-<y< 


NIa 
NIa 


y 


y = Arccos x (x <1)&æx = cos y et O<y<T 
(ces fonctions apparaissent sur les calculatrices comme sin-! et cos-!, parfois comme 
Asn et AcCs). 
> Utilisations 


La loi de l’Arc sinus (première version X) est un cas particulier de la (loi) bêta de type I 


(pour les valeurs r = 5 = L des deux paramètres). 


En théorie, la loi de l’Arc sinus (deuxième version Y) est la loi de sin U où U est une v.a. 


uniforme dans —E A , la loi de cos U où U est une v.a. uniforme dans [0, x], la loi de 


sin U ou de cos U où U est une v.a. uniforme dans [0, 2x]. 


Dans la pratique, cette loi, découverte en 1939 par le mathématicien Paul Lévy comme loi 
limite dans les marches aléatoires et la théorie des jeux, privilégie les situations déséqui- 
librées au détriment des situations équilibrées. Par exemple, dans un jeu de n parties de P 
ou F (n grand), il arrivera le plus souvent que l’un des deux joueurs soit en situation de 
gain durant la quasi-totalité des coups, selon une distribution de probabilités qui converge 
vers la loi de l’Arc sinus. 


arithmétique (triangle) 


Voir triangle de Pascal. 


arrangements avec répétitions (arrangements with repetitions) 
Entiers positifs dépendant de deux paramètres entiers positifs n et k(nZ20,0<k<n), inter- 
venant dans les dénombrements. 


On considère un ensemble E de n objets : le nombre d’arrangements avec répétition repré- 
sente le nombre de suites (ordonnées) de k objets pris parmi les n, un même objet pouvant 
être pris (répété) plusieurs fois. 

Il n’y a pas de notation spéciale utilisée en probabilités. 


nombre d’arrangements avec répétitions = n# 
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Exemples 1 E= {PF} :il y a 2{ suites différentes de k pile ou face. 
2 E={As,2, 3,4, 5,6} :il y a 6 résultats différents pour k jets d’un dé. 
3 E= {a, b, ..…., z}: on peut former avec les 26 lettres de l’aphabet français 


263 = 17 756 « mots » différents de 3 lettres. 


Voir binomiaux (coefficients). 


arrangements sans répétition (arrangements) 


Entiers positifs dépendant de deux paramètres entiers positifs n et k(n Z20,0<£k<n), inter- 
venant dans les dénombrements. 

On considère un ensemble E de n objets : le nombre d’arrangements sans répétition, noté 
AË, représente le nombre de suites (ordonnées) de k objets pris parmi les n, un même objet 
ne pouvant pas être pris plusieurs fois. 

Lorsque le mot « arrangements » est employé sans précision, il désigne les arrangements 
sans répétition. 


! 
AË = n(n-1)...(n-k+1) = nn 


Cas particulier k = n : 
A =n! est le nombre de permutations de n objets. 
Exemples 1 E=1{0,1,..,9}:1yal0X9xX8x7x6x5x4x3= 1 814 400 numéros de 
téléphone de 8 chiffres formés avec des chiffres tous différents. 


2 E={a, b, ..., z}: on peut former avec les 26 lettres de l’aphabet français 
26 x 25 x 24 = 15 600 « mots » différents de 3 lettres toutes différentes. 


3 (permutations) Le nombre de manières différentes de placer 10 personnes 
dans une file d’attente est 10! = 3 628 800. 


Voir binomiaux (coefficients), permutation. 


asymétrie (coefficient d') / ([Fisher] skewness [coefficient]) 
dissymétrie (coefficient de) 
Nombre réel sans dimension, indicateur de forme, qui mesure l’asymétrie d’une distribution 
probabiliste ou statistique. 
On considère une variable aléatoire réelle (ou une variable statistique), dont les moments 
centrés d’ordre 2 et 3 sont : 
H = o2 et H3 (ou m; = 52 et ma). 
Le coefficient d’asymétrie est le quotient : 
_ H3 LE 

n- (ni) 
Ce coefficient a été introduite par Fisher ; pour une distribution régulière, avec un maximum 
(« mode ») unique, il est positif lorsque ce maximum est à gauche de l’espérance — avec donc 
une « queue de distribution » importante à droite, nul lorsque la distribution est symétrique, 


et négatif lorsque le maximum de la distribution est à droite de l’espérance — avec donc une 
« queue de distribution » importante à gauche. 


14 axiomatique de Kolmogorov 


auto-corrélation (autocorrelation) 
Notion employée notamment pour les séries chronologiques (y;) où, sous sa forme la plus 
simple, elle désigne la corrélation « ordinaire » des couples (y;, y; , 1). 

Voir Durbin-Watson (test de). 


axiomatique de Kolmogorov (Kolmogorov axiom system) 


Formulation donnée en 1930 par Kolmogorov pour caractériser le cadre d’étude des espaces 
probabilisés, et considérée depuis comme définitive. Cette axiomatique considère le 
«triplet » (Q, 4, P) formé par un espace fondamental, une tribu d'évènements (notion intro- 
duite précédemment par Borel) et une mesure de probabilité, et énonce les axiomes que 
doivent satisfaire la tribu et la mesure de probabilité. 

Voir tribu, mesure de probabilité. 


© Dunod — La photocopie non autorisée est un délit. 


Bartlett (test de) (Bartlett test) 


Test d’hypothèse paramétrique utilisé pour comparer les variances observées de plusieurs 
échantillons statistiques. 

2 

q 

+ Données. g séries ou groupes, avec pour chaque k (1 £k< g) : un échantillon de n} valeurs 
observées d’une variable aléatoire numérique X, d’espérance mathématique H, et de 
variance 62. 


On note N le nombre total de valeurs observées n, + 73 +..+n,. 


test de comparaison de q variances 5. 6?, 5 O 


+ Hypothèse testée. H, = « 6, = 6? == 6; » contre H,=«il existe au moins deux 
varian-ces différentes ». 
+ Déroulement technique du test 


1. On calcule, avec les formules usuelles, la moyenne puis la variance débiaisée 5? de 
l'échantillon n° k. 


2. On calcule une estimation commune de toutes les variances : 

È (ni 1)s$+(n2-1)85+...+(n,-1)s; 
N-q | 

3. On calcule la valeur observée de la variable de test : 


52 


q 
t = (N-q)Ins?- ” (ny= 1jins?. 
k=1 
Les valeurs de référence de la variable de test sont à lire dans les tables de la loi du khi- 
deux à q — 1 degrés de liberté, pour le risque unilatéral © (qui est le risque standard des 
tables du khi-deux). 


+ Conditions et précautions 


— Ce test n’est pas robuste : il n’est valable que dans le cas où les lois des échantilons sont 
toutes normales ; 


— il est prudent de demander que chaque effectif n, soit 2 5. 


Il est parfois conseillé de diviser la variable de test f par le facteur correctif : 
q 
1 1 1 
= 1 + ———— —— |-—- |. 
3(qg—-1) Des N 


Remarque : si q = 2, ce test n’est pas équivalent au test du quotient des variances 
(sauf si les effectifs sont égaux). 


16 Bayes (formule de), Bayes (théorème de) 


Bayes (formule de), Bayes (théorème de) (Bayes formula, Bayes 
theorem) 
Nom d’une formule — ou théorème — utilisée pour trouver les « probabilités des causes ». 


Formule de Bayes (version simple) 


Soient deux évènements À et B d’un espace probabilisé (Q, 4, P), avec P(B) Z 0. 
Alors : 
P(ANB) _ P(A)P(B'A) 


PRE Er = 
(B) P(B) 


P(A NB) 


Le terme est la définition de la probabilité conditionnelle, et la formule de Bayes 


est son expression avec l’autre probabilité conditionnelle. De façon générale, il s’agit 
d’exprimer l’une quelconque des deux probabilités conditionnelles en fonction de l’autre. 


Formule de Bayes (version composée) 


Soient une partition (H;) (ou système complet d'événements) d’un espace Q et un 
évènement B, avec P(B) Z 0. Alors : 


P(H;NnB) P(H)P(B|H;) 


POUR Ep) POP HD + P(H)P(E (Ha) + ce + POP B[H) 


Les évènements H, peuvent être considérés comme des causes, et l'évènement B comme un 
résultat. Il s’agit bien entendu d’une interprétation dans le contexte d’une modélisation, tous 


les évènements, causes et résultat, étant de même « nature » mathématique. 


Exemple 1 Un dépistage systématique est effectué sur une population dont 6 % des 
individus présentent une certaine affection À non apparente. Ce dépistage est débuté par un 
test qui donne 95 % de résultats positifs pour les personnes atteintes par À (les autres étant 
des « faux négatifs ») et 1 % de résultats positifs pour les personnes non atteintes (les « faux 
positifs »). 


Quelle est la probabilité conditionnelle qu’une personne prise au hasard soit atteinte par A 
sachant que le test a donné un résultat positif ? Soit indemne sachant que le test a donné un 
résultat négatif ? 


On peut représenter la situation soit par un arbre, soit par un tableau à 4 cases : par exemple, 
dans cette deuxième représentation (S signifie sain, et À porteur de l’affection A), la 
probabilité de la case « S et test — » est calculée comme le produit P(S)P(test -|S) = 0,94 x 0,99 
= 0,9306 ; le tableau est figuré ci-dessous : 


test — test + 
S 0,9306 0,0094 0,94 
A 0,0030 0,0570 0,06 


0,9336 0,0664 1 
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Ce tableau est complété par les probabilités « marginales », et on peut calculer notamment 
P(test —) = P(S et test —) + P(A et test —) = 0,9336 (somme par colonne) et de même P(test +) 
= 0,0664. On peut alors calculer les probabilités conditionnelles demandées : 
P(A ettest+) _ 0,0570 | 0.86 

P(test +) 0,0664 ° 
valeur à comparer avec la probabilité a priori 0,06 d’être porteur de À, et : 


P(S ettest +) __ 0,9306 
P(Sltest—) = AS ettest+) _ 09306, 6 907, 
Slt) = © 00336 


valeur à comparer avec la probabilité a priori 0,94 d’être sain. 


P(Altest +) = 


Exemple 2 On considère une usine où trois machines fabriquent un même modèle de pièce. 
40 % des pièces sont fabriquées par la machine À, qui produit 0,1 % de pièces défectueuses : 
30 % des pièces sont fabriquées par la machine B, plus ancienne, qui produit 0,3 % de pièces 
défectueuses ; 30 % des pièces sont fabriquées par la machine C, encore plus ancienne, qui 
produit 0,8 % de pièces défectueuses. On demande la probabilité conditionnelle qu’une pièce 
ait été fabriquée par la machine C, sachant qu’elle est défectueuse. 
Appelons A l’évènement « une pièce prise au hasard a été fabriquée par la machine A », B et 
C les évènements analogues pour les machines B et C. Appelons D l’évènement « une pièce 
prise au hasard est défectueuse ». Il faut commencer par traduire les pourcentages en proba- 
bilités et en probabilités conditionnelles : 
P(A) = 0,4, P(B) = 0,3, P(C) = 0,3, 

P(D|A) = 0,001, P(D|B) = 0,003, P(D[|C) = 0,008. 
On peut alors calculer le dénominateur de la formule de Bayes 

P(D) = P(A)PD] A) + P(B)P(D]|B) + P(C)P(D|C) 

= 0,4 X 0,001 + 0,3 x 0,003 + 0,3 x 0,008 = 0,0037. 

Et on a enfin: 


P(C)P(DIC) _ 0,0024 _ 


P(CID) = s 
(D) 0,0037 


0,65 

On voit ainsi que, pour employer un vocabulaire ancien, la probabilité a priori qu’une pièce 
(prise au hasard) ait été fabriquée par C est 0,30, et que la probabilité a posteriori qu’elle ait 
été fabriquée par C sachant qu’elle est défectueuse passe à 0,65. 


Voir conditionnelle (probabilité). 


Benford (loi de) (Benford distribution) 


Loi empirique qui régit la distribution du premier chiffre des nombres pris dans des ensem- 
bles de données présentant des grandes variations d’échelle. Cette loi a été découverte en 
1881 par l’astronome S. Newcomb et redécouverte en 1938 par le physicien F. Benford. Elle 
énonce que la probabilité d’apparition du premier chiffre significatif k d’un nombre (écrit en 
base 10) est : 


P(X) = loëo[ 1 + :) 
En particulier P(1) = 0,301 = 30 %. L’une des justifications mathématiques de cette loi est 
son invariance par un changement arbitraire d’unité de mesure. 
> Utilisation 


Cette loi a été utilisée dans les années 1990 pour détecter des fraudes comptables par utilisa- 
tion de données inventées. 


18 Bernoulli (Jacques) 


Bernoulli (Jacques) 


Mathématicien suisse (1654-1705), aîné de la grande lignée des Bernoulli. Il démontra la loi 
(faible) des grands nombres (qu’il appela le « théorème d’or ») et composa le traité Ars 
conjectandi qui fut publié à titre posthume. Il fit également des travaux en analyse (équations 
différentielles, cinématique), en géométrie, et est à l’origine du « calcul des variations ». 


Bernoulli (loi de) (Bernoulli distribution) 


Loi d’une variable aléatoire discrète qui prend deux valeurs 1 et 0, dont l’importance théo- 
rique et pratique est primordiale. 


Formulaire 


Un paramètre réel p (0 < p £ 1) qui représente une probabilité et une notation systé- 
matiquement utilisée : g = 1 — p. 
Soit X la variable aléatoire de Bernoulli de paramètre p ; valeurs prises : 1 ou 0. 
> Loi de probabilité 
P(X = 1) =p, P(X =0) =g 


P 


q 
| _] 
> 
0 1 


probabilités 


> Valeurs caractéristiques 
— espérance : E(X) =p 
— variance : Var(X) = pq 
— écart-type : O(X) = pq. 


> Utilisation 


La loi de Bernoulli est la loi de la variable indicatrice d’un évènement A: X=1s HE A, 
X=0810E€ À. 

Conséquence importante : comme p = P(A) = E(X), la loi de Bernoulli est souvent utilisée en 
statistique pour pouvoir traiter une probabilité avec les formules et les tests utilisés pour les 
espérances mathématiques 


Exemple 1 Le résultat d’un lancer de pièce codé, par exemple Pile par 1 et Face par 0, est 
une variable aléatoire de Bernoulli (de paramètre p = 1/2 si la pièce est homogène et 
équilibrée). 

Exemple 2 Une question posée dans un sondage, avec deux réponses possibles (par exemple 
« oui » ou « non » codées respectivement 1 et O0), est une variable aléatoire de Bernoulli. 


Bernoulli (schéma de) (Bernoulli trials) 


Synonyme processus de Bernoulli. 
Modèle mathématique décrivant les « tirages avec remise » ou les épreuves répétées dans le 
cas particulier où chaque résultat successif ne peut prendre que deux valeurs. Dans l’une ou 
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l’autre de ces présentations d’un même schéma conceptuel, l’idée essentielle est que les 
évènements antérieurs n’ont aucune influence sur le résultat de la nouvelle épreuve (il y a 
donc indépendance des épreuves successives). 


Première 
épreuve 


Deuxième 
épreuve 


P=p? P=2pq P=q 


Le mot « processus », dans sa signification mathématique précise, renvoie à une suite de 
variables aléatoires, dans le cas présent à la suite de variables aléatoires binomiales 
(B(n, p)}, = 1,2... qui modélise le résultat des tirages aléatoires successifs. 


Berry-Esséen (théorème de) (Berry-Esseen theorem, Berry-Esseen bound) 


On considère une suite (Z,) de variables aléatoires centrées réduites convergeant, dans les 
conditions du (fhéorème) central limite, Vers une v.a. normale centrée réduite. Le théorème 
de Berry-Esséen permet de majorer l’erreur commise en remplaçant la fonction de réparti- 
tion de Z, par celle de la loi normale (à condition de supposer l’existence du moment centré 
absolu d’ordre 3). 


Théorème. On considère une suite (X,) de variables aléatoires (réelles) indépen- 
dantes et identiquement distribuées, d’espérance mathématique L et de variance o?. 
On définit les moyennes : 

- X,+X,+..+X, 


n ? 
n 


puis les variables centrées réduites correspondantes : 
_ M, — M 


RE) 
\n 
et enfin les fonctions de répartition : 
F,G@) = P(Z, < x). 
On suppose que le moment centré absolu d’ordre 3 des X, existe : M3 = E(|X, - uf). 


M 


Z 


On pose F(x) = LF e/2dt (fonction de répartition d’une v.a. normale centrée 
27° — 
réduite). Alors, pour tout x e KR: 
M; 
[F,(x) — F(x)| <0,7655 
Oo /n 


(Le coefficient numérique « historique » est 3, la valeur 0,7655 est due à Shiganov 
(1986).) 


Remarque : lorsque la distribution est symétrique, on peut améliorer ce résultat et 
donner une borne « en - ». 
n 


20 bêta de type I (loi) 


bêta de type I (loi) (beta distribution of type I, beta prime 

distribution) 
Loi d’une variable aléatoire continue non élémentaire, ajustée par deux paramètres et qui 
intervient dans divers problèmes, par exemple dans la théorie des intervalles de confiance 
pour la loi binomiale. 


Formulaire 


Deux paramètres réels r > O0 ets > 0 ; valeurs sur l’intervalle [0, 1] (éventuellement 
bornes exclues). 


> Loi de probabilité 


1 
B(r,s) 


— densité : f(x) = x-1(1-x)s-1 (0<x<1) 


— fonction de répartition : F(x) = [Ana (O<x<1) 
0 


la fonction B (= bêta majuscule grec) est définie à partir de la fonction gamma par 
B(r, s)= LOTO), 
T(r+s) 


> Valeurs caractéristiques 


— espérance : E(X) = en : 
T+s 
rs 


— variance : Var(X) = —————, 
(r+s+1)(r+s)? 


1 
r+s+l 


— écart-type : G(X) = rs 
r+s 


> Cas particulier 


Pour r=5s= 1, la loi bêta est la loi uniforme continue sur [0, 1]. 


Le minimum et le maximum de ñ v.a. uniformes sur [0, 1] et indépendantes suivent des lois 
bêta de type I, respectivement de paramètres 1 et n, et net 1. 


Voir gamma (fonction). 


bêta de type Il (loi) (beta distribution of type II, beta prime 
distribution) 


Loi d’une variable aléatoire continue non élémentaire, dérivée de la loi bêta de type I, et qui 
peut modéliser de nombreux phénomènes aléatoires positifs. 


Si Y est une v.a. qui suit une loi bêta de type I et de paramètres r et s, le quotient X = re 


suit une loi bêta de type II et de mêmes paramètres. 
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Bienaymé-Tchebychev (inégalité de) 21 


Formulaire 


Deux paramètres réels r > 0 et s > 0 ; valeurs sur les réels positifs. 
> Loi de probabilité 


1 xl 


— densité : RE ia 


>0) 


— fonction de répartition : F(x) = [ro (x20) 
0 


> Valeurs caractéristiques 


— espérance : E(X) = (sis > 1), 
S _ 


— variance : Var(X) = Pie (sis > 2), 
(s—1)2(s-2) 
r(r+s-—1) 
— écart-type : G(X) = 2 (sis > 2). 


Le quotient de v.a. de lois gamma de paramètres respectivement r et s suit une loi bêta de 
type IL de paramètres r et s. 


biais (bias) 
Dans une situation d’estimation d’un paramètre 8 d’une loi de probabilité par une variable 
aléatoire « estimateur » Ÿ, = Y,(X,, X:, …, X,), le biais désigne la différence E(Y,,) — 6. 
Voir débiaisée (estimation). 


Bienaymé-Tchebychev (inégalité de) (Chebyschev inequality) 


Soit X une variable aléatoire réelle d’espérance u et d’écart-type 6. Alors, pour tout 
t>0,ona: j 
P(IX - ul] > 16) < 5° 
t 


forme alternative équivalente, pour tout a > 0: 


2 
nX-ul2d<T. 
a? 


Cette inégalité permet de démontrer la loi faible des grands nombres, et son intérêt théorique 
est donc grand. 

Mais si on veut l’utiliser numériquement, son intérêt est limité aux variables aléatoires X sur 
lesquelles on ne sait rien (d’autre que l’existence et la valeur de u et de 6) : cette inégalité est 
alors le seul renseignement sur la décroissance de P(|X — x] > 16) lorsque f tend vers l'infini. 
En revanche, dès que l’on sait quelque chose sur X, on peut faire mieux... On comparera par 
exemple P(IX — | > 36)<0,1111 (inégalité de Bienaymé-Tchebychev) et, pour une v.a. 
normale X, P(IX - ul > 36) = 0,0027. 


22 bilatéral 


Cette inégalité est souvent démontrée à partir de l’inégalité de Markov : 


Soit X une variable aléatoire réelle qui possède un moment absolu d’ordre 1 : M, = 
E([X}). Alors, pour tout a > 0, on a: 


M; 
PIX] = 0) À, 


(il est équivalent de supposer X positive et de considérer l’espérance 1 = E(X)). 


Ces inégalités possèdent des généralisations, désignées le plus souvent sous le nom géné- 
rique d’inégalité de Tchebychev. 


bilatéral (two-sided, double-tailed) 


Qualifie un test paramétrique où l’on teste l’hypothèse simple H, = « 6 = 8, » contre l’hypo- 
thèse alternative bilatérale H, = « 8 4 0, » (à comprendre donc comme H, = «8 < 6, » ou 
«6 > 65»). 


bimodale (distribution) 


Voir mode. 


binomial (test) 
Nom parfois donné au test de Student de comparaison de pourcentages (probabilités). 


binomiale (loi) (binomial distribution) 


Loi d’une variable aléatoire discrète de compte qui intervient notamment dans les épreuves 
répétées. 


Formulaire 


Deux paramètres réels : n (entier Z 1) qui représente un nombre d’épreuves ou de 
tirages, p (0 <p < 1) qui représente une probabilité, et une notation systématique- 
ment utilisée : g = 1 —-p. 

Soit N la variable aléatoire binomiale B(n, p) ; valeurs prises : 0, 1,.., n. 


> Loi de probabilité 
PIN =D = (}) part 


P 
Al 
0! 1 2 ss 


n X 


probabilités 
> Valeurs caractéristiques 
— espérance : E(N) = np, 
— variance : Var(N) = 7pq, 
— écart-type : G(N) = /npg. 
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binomiale négative (loi) 23 


> Utilisations 


La loi binomiale est la loi de la somme de n variables aléatoires de Bernoulli semblables et 
indépendantes. C’est donc la loi du compte des évènements dans des épreuves répétées, et 
c’est pareillement la loi du compte d’un caractère dans des tirages « AVEC remise ». 

La loi binomiale est une approximation de la loi hypergéométrique (qui est la loi du compte 
d’un caractère dans des tirages « SANS remise ») lorsque le paramètre N de cette loi est 
« grand ». 


Exemple 1 Le nombre de filles dans une famille de 6 enfants, sachant que la probabilité de 
naissance d’une fille est 0,51 (et en supposant que les sexes des enfants successifs soient 
indépendants), suit une loi binomiale B(6, 0,51). On peut calculer par exemple la probabilité 


2 x 0,514 x 0,492 = 15 x 0,06765 x 0,2401 = 0,3249. 


Exemple 2 Le nombre annuel N d’accidents à un carrefour donné, sachant qu’il y a chaque 
jour une chance sur 125 d’accident, suit une loi binomiale B(365, 0,008). On peut calculer 


par exemple E(N) = 365 x 0,008 = 2,92 et G(N) = 4365 X 0,008 x 0,992 = 1,70. 


qu’il y ait (exactement) 4 filles : ( 


binomiale négative (loi) (negative binomial distribution) 
Synonyme loi de Pélya. 

Loi d’une variable aléatoire discrète de compte du nombre d’échecs précédant le s-ième 
succès dans des épreuves répétées. 


Formulaire 


Deux paramètres réels s (entier Z 1) qui représente le nombre de succès qui contrôle 
la loi, p (0 <p < 1) qui représente une probabilité (notation standard : g = 1 — p). 


Soit N la variable aléatoire binomiale négative de paramètres s et p ; valeurs prises : 
01, 252 


> Loi de probabilité 


P(N = &) = ( ie Jp 


> Valeurs caractéristiques 


— espérance : E(N) = - 
P 


— variance : Var(N) = 7 , 
P 
— écart-type : G(N) = ss 


> Utilisation 
La loi binomiale négative est le nombre d’échecs avant le s-ième succès dans des épreuves 
répétées, ou dans des tirages « AVEC remise » (le premier compte possible est N = O0). 


Si N est la variable aléatoire binomiale négative de paramètres s et p, alors T = N + s est une 
variable aléatoire de Pascal de mêmes paramètres s et p. 


24 binomiaux (coefficients), binôme (coefficients du) 


Cette loi s’appelle loi binomiale négative parce que, avec la définition généralisée du coeffi- 
ï) _ 4&@=1)..0-m+#r1) 


, Valable pour x quelconque et m entier > 1, on 
m m! 


cient binomial ( 


peut écrire : Là 
PN == (TEST) prat = (TS) psg 


On notera enfin que, si l’on pose P = : ,Q = Z, P(N = b) est égal à (° si . 1) piQ" SE, 
P P s— 


qui est le coefficient du terme général du développement de (P — OY<. 
binomiaux (coefficients), binôme (coefficients du) (binomial 


coefficients) 
Synonyme de combinaisons (combinations). 


Entiers positifs dépendant de deux paramètres entiers positifs n et k(nZ20,0<k<n), inter- 
venant d’une part dans le « développement du binôme », d’autre part dans les dénombre- 
ments. 


Les coefficients binomiaux possèdent plusieurs définitions combinatoires équivalentes (et 
très proches). 


1. On considère un ensemble E de n objets : le nombre de combinaisons, noté () , représente 
le nombre de manières de prendre (sous-entendu : sans répétition) k objets parmi les n. 

2. On considère un ensemble E de n éléments : (5) représente le nombre de sous-ensembles 
de k éléments de E. 

3. On considère un ensemble E de n éléments : () représente le nombre de manières diffé- 
rentes de répartir ces objets en deux classses, contenant respectivement & et n — k objets. 


c' = () _ Gi=-1).(n-6#1) "#4 
k! En =)! 


> Notations 


(æ ; est une notation ancienne, mais encore très utilisée dans l’enseignement français, (x) est 


la notation moderne, justifiée notamment par le « n » en regard du numérateur de la formule 
et le « k » en regard du dénominateur. 


> Cas particulier et propriété importante 
n\ _fn)\ 
G)=()=" 
n _ n 
n—k k 
Développement (formule) du binôme 
k=n 


are Z (pet 


k=0 
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Borel-Cantelli (lemme de) 25 


Dans le contexte probabiliste (dénombrements, loi binomiale), les deux termes, coefficients 
binomiaux et combinaisons, sont employés concurremment. 


Exemple 1 Le nombre de délégations différentes de 3 personnes prises dans un groupe de 


20 est ni = 20X19X18 _; 140, 
3 1x2Xx3 


Exemple 2 Le nombre d'échantillons différents de 900 personnes que l’on peut extraire d’une 


population de 60 000 000 est à | (si on calcule ce nombre, on trouve 3,18 X 104730), 


Voir arrangements, permutations, triangle de Pascal. 


boîte de dispersion, boîte à moustaches (box plot) 


Représentation graphique symbolique de la médiane 
et des quartiles d’une distribution statistique. Si Qs, 
Q:; Q, Q; et Q, sont respectivement l’extrémité infé- 
rieure, le premier quartile, la médiane, le troisième 
quartile et l’extrémité supérieure, on indique l’axe 
des ordonnées et on dessine à côté : un trait vertical 
de Q, à Q,, trois traits horizontaux en Q,;, Q,; et Q:3, 
complétés en « boîte », et enfin un trait vertical de Q,; 
à Q,. On peut imaginer diverses variantes … 
L'expression «boîte à moustaches » se réfère au 
dessin d’une boîte de dispersion étalée au-dessus 
d’un axe horizontal. 


Lt 


Borel (Émile) 

Mathématicien et homme politique français (1871-1956). Il développa la notion de mesure, 
introduisit la convergence « presque sûre », et démontra la loi forte des grands nombres. Il fit 
également des travaux en analyse (théorie des fonctions, sommation des séries). 


Borel-Cantelli (lemme de) (Borel-Cantelli lemma) 


On considère une suite (A,) d'évènements définis sur un même espace probabilisé (Q, 4, P). 
Alors : 
— si la série numérique JP À,) converge (les mathématiciens écrivent Y P(A,)<+), 
n=l 
il n’existe presque sûrement (1.e. avec probabilité 1) qu’un nombre fini de À, qui se réali- 
sent ; 


— si la série numérique > A,) diverge (les mathématiciens écrivent > P(A,) = +co }, 
n=il 
et si de plus les À, sont indépendants, il existe presque sûrement (1.e. avec probabilité 1) 
une infinité de À, qui se réalisent. 


En se restreignant au cas d’une suite d'évènements indépendants, ce lemme est parfois 
appelé la loi du zéro-un de Borel-Cantelli. 


26 Bravais-Pearson (coefficient de) 


Exemple Dans une suite infinie de parties indépendantes de Pile ou Face, un « motif » 
donné, quelle que soit sa longueur, apparaît presque sûrement ; il apparaît même une infinité 
de fois presque sûrement. De même, si l’on émet (si l’on frappe sur un clavier...) 
aléatoirement et de façon indépendante les lettres de l’alphabet et les signes de ponctuation, 
un texte donné, quelle que soit sa longueur, apparaît presque sûrement, il apparaît même une 
infinité de fois presque sûrement. 


Voir zéro-un (loi du — de Kolmogorov). 


boréliens (Borel set) 
Tribu de R engendrée par les intervalles fermés bornés. 


branchement (processus de) 
Voir Galton-Watson (processus de). 


Bravais-Pearson (coefficient de) (Pearson coefficient, 
Bravais coefficient) 

Ancien nom du coefficient de corrélation linéaire. 

Voir corrélation (coefficient de). 
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N 


caractère 


Voir variable statistique. 


caractéristique (valeur) 


Voir indicateur. 


caractéristique (fonction) (characteristic function) 
Fonction complexe de variable réelle que l’on peut associer (bijectivement) à toute variable 
aléatoire réelle et qui est un outil privilégié d’étude des lois de probabilité. 
Soit X une variable aléatoire réelle. On appelle fonction caractéristique de X la fonction @x 
de la variable réelle f définie par 

px) = E(eïX). 
Expression dans le cas discret. X prend les valeurs x, avec les probabilités p, : 


Ex = Y pie 


Expression dans le cas absolument continu. X possède la densité (x) : 


x = [_ eff(x)ax 


Lorsque la loi est symétrique, la fonction caractéristique est réelle. 
La fonction caractéristique est liée aux moments de X. Plus précisément, on a @x(0) = 1 et, 
pour tout £# pour lequel la dérivée k-ième existe : 


P,&(0) = if E(X®). 


> Comportement par transformation affine 
Pax + bQ) = ei! Px (at). 

> Comportement par addition de v.a. indépendantes 
Px + y) = PxO) Py(), 

> Fonction caractéristique des lois les plus fondamentales 


— loi singulière concentrée en x, : eo 

— loi de Bernoulli de paramètre p : q +pei! 

— loi binomiale de paramètres n et p : (q + peït)" 
— loi de Poisson de paramètre L : ent(ei-1) 

— loi uniforme sur [- a, a] : er 


m1 


28 Cardan (Gerolamo) 


: : : À 
— loi exponentielle de paramètre À : er 
—i 
: » 2 de 2 
— loi normale centrée réduite e-r72 
: N : 22 
— loi normale de paramètres LL et & éilrérs 72 


Voir génératrice des moments (fonction). 


Cardan (Gerolamo) 


Médecin, mathématicien et astrologue italien (1501-1576). Il publia une étude sur la durée de 
vie humaine et esquissa le concept de probabilité dans son ouvrage Liber de Ludo Aleae (publié 
un siècle plus tard !). Il fit également des travaux en algèbre (équation du troisième degré). 


Cauchy (loi de) (Cauchy distribution) 


Loi d’une variable aléatoire continue qui peut être définie comme le quotient de deux v.a. 
normales indépendantes, centrées et de même écart-type. 


Formulaire 


Version standardisée X sans paramètre, à valeurs sur KR. 


> Loi de probabilité 


fA FA 
1 
0 7x 0 7x 
densité fonction de répartition 
1 


fx) = 


1 F(x) = L+4 1 Arc tan x 
n(1 +x2) 2 nn 


Les intégrales qui définissent l’espérance mathématique et la variance de cette loi ne 
convergent pas, de sorte qu’une v.a. de Cauchy ne possède ni espérance ni variance 
ni écart-type. 

> Valeurs caractéristiques 


Les seuls indicateurs de tendance centrale et de dispersion que l’on peut calculer 
sont la médiane (égale à 0) et les quartiles (égaux à —1 et à 1) 


Cette loi est notamment celle du quotient de deux v.a. normales réduites et indépendantes, 
se N : TT , 4 : 

ainsi que celle de tan U où U est une v.a. uniforme dans ]-=, = [. C’est également la loi de la 

variable de Student Ti à 1 degré de liberté. 22 

Parmi les « pathologies » de cette loi, on peut signaler que l’inverse d’une v.a. de Cauchy est 

une v.a. de Cauchy identique, que la loi de la somme de n v.a. de Cauchy « copies » de X suit 

la loi de nX, et donc que la moyenne suit la loi de X. 
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centile 29 


causes (probabilités des) 
Ancienne dénomination du (théorème de) Bayes. 


censurées (données) (censored data) 


Qualifie une situation où il est impossible (ou trop coûteux) d’observer la totalité des valeurs 
d’un échantillon. Une situation typique est celle des essais de fiabilité, où l’on considère un 
échantillon de variables qui sont des durées de vie (ou des temps d’attente de (première) 
défaillance) de systèmes tous mis en fonctionnement à l’instant { = 0. La censure peut porter 
sur la durée d’observation (on arrête les observations à l’instant { = 6), ou sur le nombre 
d’observations (on arrête les observations après la r-ième observation). 

La théorie de l’estimation des paramètres repose essentiellement sur la méthode du maximum 
de vraisemblance. On donne ci-dessous les formules de base dans l’unique cas de la loi expo- 
nentielle (qui correspond en théorie de la fiabilité à la situation standard à taux de défaillance 
constant). 


Estimation de l'espérance mathématique t = : 


d'une loi exponentielle de paramètre À À 


> Rappel du cas non censuré 
— échantillon de n observations individualisées #1, f2, ….,1,; 
— estimation standard de 7 par la moyenne : 


1 Hat 
ss ice 


n 
n 
> Censure à l'instant t = 0 
— r Valeurs ont été observées, formant un échantillon tronqué #1, f2, …, 1, : 
— estimation de t par le quotient : 
t,+..+1,+(n-r)8 


r 


> Censure au r-ième « décès » 
— échantillon tronqué fi, 2, …, t,, que l’on suppose ordonné (donc f, est la plus 
grande valeur observée) ; 


— estimation de t par le quotient : 
à = tit +t,+(n-r)t, 
r 


Dans tous les cas, le paramètre À sera estimé par l’inverse de . 


Malgré leur apparence similaire, les deux dernières formules sont très différentes : dans la 
première, r est la valeur observée d’une variable aléatoire R, dans la seconde, la valeur de r 
est fixée par l’expérimentateur. 


centile (percentile) 


Indicateur de position attaché à une variable aléatoire réelle, utilisé essentiellement en statis- 
tique. Les centiles partagent la série des valeurs en deux parties de fractions & et 1 — & de 
l’effectif total, pour & = 1 %, 2 %, …, 98 , 99 %. Ils sont au nombre de 99. 

Si la signification concrète des centiles est simple et « parlante », la traduction formelle est 
plus délicate. On adaptera sans difficulté le formulaire détaillé pour la médiane. 


m1 


30 central limite (théorème) 


central limite (théorème) (central limit theorem) 


Théorème. On considère une suite (X,) de variables aléatoires (réelles) indépen- 
dantes et identiquement distribuées, d’espérance mathématique L et de variance o2. 
On définit les moyennes : 

” X,+X,+...+X, 


M, 
n 
puis les variables centrées réduites correspondantes : 
M, = 
Z, — n . 
Cr) 
\n 
et enfin les fonctions de répartition : 
F,(x) = P(Z,<x). 


Alors, pour tout x e R: 


F,(x) = F0) = 1 Î * e-f/2dt quand n — ©. 
27° -> 


(F(x) est la fonction de répartition d’une v.a. normale centrée réduite) 


C’est très exactement la définition de la convergence en loi de la suite (Z,) vers une va. 
normale centrée réduite lorsque n tend vers l’infini. 


Une conséquence immédiate est l’expression limite des probabilités d’intervalles : 


n— 


b 
P(a<Z, <b)—> F(b)-F(a) = = Pda and tes: 
27T* a 


On notera que l’on peut aussi bien calculer Z, à partir de la somme S, = X1 +... +X,: 
LE S, —ñnH 


n Gun 


Comme pour la loi des grands nombres, il existe des versions du théorème central limite avec 
des conditions affaiblies. 

Il faut enfin signaler que, dans la pratique, on s’autorise à appliquer le théorème central 
limite pour approcher S, et M,, lorsque n est « assez grand », par des variables normales de 
mêmes paramètres. Cela soulève des problèmes délicats ; il existe des résultats, notamment 
le (théorème de) Berry-Esséen, qui permettent de majorer l’erreur commise. 


centre (midpoint, class mark, mid-range) 


Le centre d’une série statistique est la demi-somme des valeurs extrêmes. C’est une caracté- 
ristique de tendance centrale médiocre car elle est trop sensible aux valeurs aberrantes (erro- 
nées ou exceptionnelles). aj+ ais: 

Le centre d’une classe constituée par un intervalle Ja; a; , \] est le milieu Se S . Dans un 
certain nombre de formules (calcul d’une moyenne empirique, calcul d’une variance empi- 
rique, …), on remplace la valeur exacte des éléments par le centre de la classe à laquelle ils 
appartiennent. Cela introduit un biais, le plus souvent très faible, mais qui peut être corrigé 
(correction de Sheppard). 


Synonyme de milieu. 
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centrée (variable aléatoire) (centred random variable) 


Se dit soit d’une variable aléatoire X dont l’espérance E(X) est nulle, soit, étant donnée une 
variable aléatoire quelconque X, de la variable translatée X — E(X). 


centrée réduite (variable aléatoire) (standardized random variable, 
centred and normed random variable) 


Se dit soit d’une variable aléatoire X dont l’espérance E(X) est nulle et l’écart-type o(X) égal 
à 1, soit, étant donnée une variable aléatoire quelconque X, de la variable translatée et homo- 
X—E(X) 


thétique 
G(X) 


certain (événement) (certain set) 


Evènement plein Q = « n’importe quoi s’est passé » d’un espace probabilisé (Q, 4, P), de 
probabilité égale à 1 (c’est bien sûr un cas limite, mais il est nécessaire de l’inclure dans 
l’ensemble A de tous les évènements envisageables). 


certaine (variable aléatoire) (certain random variable) 


Variable aléatoire qui prend une valeur unique avec probabilité 1 (c’est bien sûr un cas limite, 
mais il est nécessaire de l’inclure dans l’ensemble de toutes les variables aléatoires envisa- 
geables — il serait inapproprié de la dénommer variable aléatoire constante !). Le nom mathé- 
matique officiel est variable aléatoire singulière (ou dégénérée). 


chaîne de Markov (Markov chain) 


Modèle probabiliste d’une suite de « changements d’états » qui se produisent aux instants 
t=1,2,..,n, ..…, et qui vérifient la propriété fondamentale suivante : l’évolution après 
l'instant n ne dépend que de la situation à cet instant n (mais non de la « trajectoire » entre 
t=0etf=n-1). 

Une chaîne de Markov est un cas particulier de processus aléatoire. On appelle markoviens 
les processus qui satisfont de façon générale la propriété que « le futur ne dépend que du 
présent mais non du passé », propriété qui s’écrit formellement avec des probabilités condi- 
tionnelles. Lorsqu’un processus markovien est à temps discrets et à valeurs discrètes finies 
ou infinies dénombrables, on l’appelle chaîne de Markov (certains auteurs ont une définition 
plus extensive). 


Une chaîne de Markov (X,) est définie par un ensemble € = {E;} fini ou dénombrable, appelé 
espace des états, et, pour chaque instant n, des probabilités de transition qui constituent la loi 
conditionnelle du passage de la situation à f = n à la situation à {= n + 1. Lorsque cette loi de 
passage ne dépend pas de n, on dit que la chaîne de Markov est homogène (sous-entendu : 
dans le temps). Dans ce cas, il y a un unique ensemble {p;;} de probabilités de transition : 
P(X, = E;et X,,1=E;) = P(X, = E;) x p;; (les probabilités de transition vérifient pour tout à 
la propriété Z,p;; = 1, simple contrainte de cohérence). 


Exemple On considère un modèle épidémiologique individuel à 4 états : 1 = sain non 
immunisé, 2 = sain immunisé, 3 = malade, 4 = mort. On représente généralement une chaîne 
de Markov par un « graphe » avec des cercles qui figurent les états, des flèches qui figurent 
les transitions (changements d’état) ayant une probabilité non nulle, et on porte sur les 
flèches les probabilités de transition. 


m1 


32 chi-deux 


_ 


— 


On peut constater dans cet exemple que les états 2 et 4 sont « absorbants » (un état E; est dit 
absorbant si p;; = 1). On peut poser des questions telles que : si on se place initialement dans 
l’état 1, quelle est la probabilité d’atteindre l’état 2 (et d’y rester), quelle est la probabilité 
d’atteindre l’état 4 (et d’y rester) ? ou encore : quelle est l’espérance mathématique (si elle 
existe) du temps d’attente pour aller de l’état 1 à l’état 2, ou de l’état 1 à l’état 4 ? 


chi-deux 
Une des deux formes francisées du symbole grec x? (prononcé ki deux) 
Voir khi-deux. 


chronologique (série) 


Voir série chronologique. 


classe (class) 


Valeur (ou modalité) ou ensemble de valeurs (ou de modalités) que peut prendre une variable 
statistique (ou caractère) et qui sert notamment à constituer des tableaux « par classes et 
effectifs ». 


classe modale 


Voir modale (classe). 


classes et effectifs (tableau par) 
Voir tableau par classes et effectifs. 


coefficient 


Voir aplatissement (coefficient d’), asymétrie (coefficient d’), corrélation (coefficient de), 
détermination (coefficient de). 


coefficients binomiaux 


Voir binomiaux (coefficients). 


cohorte (cohort) 
Type particulier d’échantillon, utilisé notamment en épidémiologie, sociologie ou démogra- 
phie, constitué par un ensemble d’individus choisis à un moment donné, et « suivis » ensuite 
pendant une période le plus souvent de plusieurs années. Le choix initial est effectué parmi 
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des individus possédant une même caractéristique (être indemne d’une certaine pathologie, 
être dans une même année d’études, avoir le même âge, ...). Les études de cohortes sont 
parfois appelées enquêtes « longitudinales ». 


combinaisons 


Voir binomiaux (coefficients). 


combinatoire 


Voir analyse combinatoire. 


comparaison de moyennes (test de) 
Voir Student (test de). 


comparaison de pourcentages / probabilités (test de) 
Voir Student (test de). 


comparaison d'une variance à une valeur fixée 
Test paramétrique qui compare la variance observée d’un échantillon statistique à une valeur 
fixée. 


—— test bilatéral de comparaison d'une variance 6? à une valeur fixée 62 —— 
0 


+ Données. Un échantillon (x1, x2, …, x,) de n valeurs observées d’une variable aléatoire 
normale X d’espérance mathématique let de variance 62. 


+ Hypothèse testée. Ho = « ©? = 64 » contre Hi = « 6? # 68 » 


+ Déroulement technique du test 

i=n 

1. On calcule la moyenne x = - >, x; de l’échantillon, puis on calcule la variance non 

n 
i=1 
i=n 
biaisée 52 = — > (x; —x)? de l’échantillon. 
n-1 


i=1 


2. On calcule la valeur observée de la variable de test : 


Les valeurs de référence de la variable de test sont deux bornes / et D, à lire dans les tables 
de la loi du khi-deux à n — 1 degrés de liberté : /; est la valeur du y2 pour la probabilité 1 — 2 . 
et l la valeur pour la probabilité S . L'hypothèse Hi est rejetée si f est à l’extérieur de l’inter- 
valle [/1, b]. 


+ Conditions et précautions. Contrairement au cas d’une espérance ou d’une probabilité, ce 
test n’est pas robuste : 1l n’est valable que dans le cas où la loi de l’échantillon est normale. 


m1 


34 comparaison de deux variances 


comparaison de deux variances 
Voir Fisher-Snedecor (test de). 


complémentaire (complementary set / event) 
Dans la formalisation ensembliste des espaces probabilisables, les évènements sont des 
parties de l’espace fondamental Q. Si l’on considère un évènement A, son complémentaire 
CA est l’évènement dont la réalisation correspond à la négation logique « non-A » : 

oe [AS non (we A). 
Outre les deux notations ensembliste et logique, parfaitement synonymes : ÇA, non-A, on 
emploie souvent la notation À qui est très commode. 


Formules (manipulation des évènements) 
C(A VU B)=CANCB 
C(A nB)=CAUCB 
P(CA) = 1 - P(A) 


Ces formules ont bien sûr leurs correspondants logiques. 

La dernière formule est d’un usage très fréquent ; en effet, il arrive très souvent que la proba- 
bilité d’un évènement ne soit pas directement calculable, mais que la probabilité de son 
complémentaire le soit. 


Exemple On considère la répartition des sexes des enfants dans les familles de 6 enfants, 
qui suit en première approximation une loi binomiale de paramètres n = 6 et p = 0,5 : py = 


P(k filles) = fo) 0,56. On demande la probabilité P de l’évènement « au moins une fille ». Il 
serait très maladroit de calculer p, + p2 + p3 + pa + ps + p«. Il suffit de constater que 


l'évènement « au moins une fille » est le complémentaire de « (exactement) 0 fille » et l’on 
obtient immédiatement P = 1 — po = 1 — 0,56 = 0,984. 


composées (formule des probabilités) (composite probabilities 
formula) 


Version multiplicative de la définition d’une probabilité conditionnelle : 


P(A NB) = P(A) P(B|A) (= aussi P(B) P(A[B) 


Cette formule se généralise : P(A NB NA C) = P(A) P(B[A) P(CI(ANB)), etc. C’est ainsi que 
l’on calcule les probabilités lorsque l’on modélise une suite (logique ou temporelle) d’évène- 
ments, et que l’espace fondamental Q global est représenté par un arbre : la probabilité à 
chaque « nœud » de l’arbre s’obtient en multipliant la probabilité associée au nœud précé- 
dent par une probabilité conditionnelle. 


compte (variable aléatoire de) (counting variable) 


Variable aléatoire qui modélise dans des épreuves successives ou simultanées (épreuves 
répétées, échantillonnage ou sondage, « processus ») un compte total d’évènements (résultat 
d’un jeu, réponse d’un certain type à une question ou caractéristique particulière dans une 
enquête, défaut, panne, naissance, ..….). Les lois les plus classiques pour une variable aléatoire 
de compte sont la loi binomiale, la loi hypergéométrique et la loi de Poisson. 
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concentration (courbe de - de Lorentz) ([Lorentz] concentration 

curve) 
On considère une variable réelle X, en principe positive, définie sur une population, et qui 
représente généralement un « bien » (salaire, revenu, patrimoine, actif, ...) susceptible d’être 
« possédé » par les individus. Étant donné une valeur x de cette variable (de ce bien), on peut 
lui associer la partie A(x) de la population constituée par les individus pour lesquels X < x (i.e. 
les individus qui possèdent chacun une quantité < x du bien). On note F{(x) la proportion de 
la population de A(x) par rapport à la population totale, et FQ(x) la proportion du bien possédé 
par les individus de A(x) par rapport au bien total possédé par l’ensemble de la population. 
La courbe de concentration est formée par l’ensemble des points d’abscisse F(x) et 
d’ordonnée FQ(x). Dans le cas où l’on connait seulement des classes de valeurs de X, cette 
courbe est une ligne brisée. 


Construction par points de la courbe 


Le cas standard est le cas discret : les valeurs de X étant réparties en classes d’extré- 
mités xo < xy < … < x, On se donne le nombre n; d'individus qui possèdent une 
valeur de X entre x; et x; (i = 1, …, k). On représente la valeur de X dans la classe 


X;_1+%; = 
Jxi1, x] par son centre x! = É , et on pose g; = n;x’; la quantité de X 


k 
possédée par les individus de la classe n° i. La population totale est N = + n; = 
i=1 


k 
N1 + M2 + … + ny, et la quantité totale Q de X possédée est Q = > n;x';. 
i=1 
On définit tout d’abord les proportions (du nombre d’individus et de la fraction 
possédée) dans chaque classe : 


Fe L 
iTN de O 


On définit enfin, de j de 0 à k, les points de la courbe de concentration, qui ont pour 
coordonnées les proportions cumulées. 
> pourj=0 

— abscisse F5 = 0, 

— ordonnée Oo = 0 
> pourj>1 

j 
— abscisse F;= . , proportion de la population qui possède jusqu’à la valeur x;, 


i=l. 
j 


— ordonnée Q; = >» g;, proportion de X possédée jusqu’à la valeur x;, 
i=1 
> remarque : pour j = k ces formules donnent 
— abscisse F,= 1, 
— ordonnée Q;= 1. 
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On peut lire indirectement sur cette courbe la médiale M* (la valeur de x qui partage en deux 


la masse totale « possédée ») : M* est la valeur de x telle que FQO(x) = s- La courbe de 


concentration est toujours au-dessous de la « première diagonale » OA (cf. figure ci-dessous), 


et la médiale est toujours supérieure à la médiane M (caractérisée par F(M) = ; ). 


Lorsque l’amplitude des variations de X est faible, et que la « possession » de X est bien 

répartie, la courbe de concentration est voisine de OA. Lorsque l’amplitude des variations de 

X est grande, et/ou que la « possession » de X est très concentrée (chez les « gros » possé- 

dants), la courbe s’écarte de OA pour se rapprocher des côtés OBA. On peut traduire la 

distance entre OA et la courbe par un indicateur appelé indice de concentration de Gini. 
FQ(Xx) À FQ(x) À 


; A … A 


0,5!------ 


dj 


B 


FX) 0 05 AM) FX) 


On peut aussi définir la courbe de concentration dans le cas d’une distribution continue de X, 


de densité f(x). On a Q = I tf(t)df et la courbe de concentration est la courbe paramétrique 
0 
d'équations F(x) = [ ft (fonction de répartition), FO(x) = : [ ‘iftodr. 
0 0 


Exemple On considère une entreprise de 150 personnes où les salaires (en k€ par mois) 
sont répartis comme indiqué par le tableau ci-dessous : 


classe [1,0, 1,21 | [1,2,1,5[ | [1,5,2,0[ | [2,0,2,6[ | [2,6, 3,41 | [3,4, 4,8 


effectif 15 63 42 18 9 3 


Tracer la courbe de concentration. 


Il faut commencer par calculer les valeurs et les proportions cumulées, comme détaillé dans 
le tableau ci-dessous : 


classe [x-1, x;T | [1,0, 1,21 | [1,2,1,5[ | [1,5,2,0[ | [2,0,2,6[ | [2,6,3,4[ | [3,4, 4,8[ 


centre de classe 


; 1,1 1,35 1,75 2,3 3,0 4,1 
Xi 
effectif n; 15 63 42 18 9 3 
etecit 15 78 120 138 147 150 
cumulé Zn; 


proportion F; 0,10 0,52 0,80 0,92 0,98 1,00 
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masse n;X'; 16,5 85,05 73,5 41,4 27,0 RS 
masse cumulée 16,5 98,55 172,05 | 213,45 | 240,45 | 252,75 
> NX; 
proportion 0,065 0,40 0,68 0,845 0,95 1,00 


de la masse Q; 


On obtient ainsi les points suivants : 


(0,0 , 0,0 ) 

(0,10 , 0,065) 

(0,52, 0,40) 

(0,80 , 0,68 ) 

(0,92 , 0,845) 

(0,98, 0,95) 

L6: : 10 

( ) “à 

concentration (indice de - de Gini) ([Gini] concentration index) 


Étant donné une variable positive X définie sur une population, on peut définir la courbe de 
concentration de Lorentz. 

L'indice de concentration de Gini est le double de l’aire comprise entre la courbe de concen- 
tration et la « première diagonale » du carré-unité. 


Calcul pratique de l'indice de concentration 


Le cas standard est le cas discret : les valeurs de X étant réparties en classes d’extré- 
mités xo < x1 < … < xx, On se donne le nombre n; d'individus qui possèdent une 
valeur de X entre x;_1 et x; (i = 1, …, k). On représente la valeur de X dans la classe 


X;_1+X;, 
i-] i DA 
Jxi-1, x] par son centre x'; = NES RS et on pose g; = n,x; la quantité de X 


k 
possédée par les individus de la classe n° i. La population totale est N = > n;, = 
i=1 


k 
N1 + n2 + … + nx, et la quantité totale Q de X possédée est Q = ” nx'i. 
i=1 
On calcule alors (cf. courbe de concentration) les proportions fj et g; dans les classes, 
et les proportions cumulées Fj et Q;. 


L'indice de concentration Ic est donné par l’une quelconque des deux formules équi- 
valentes suivantes : 


k-1 
Ic = D (F,0;:1-F;:19), 


i=1 


k 
Ic = 1-[ie + D (0-1 + 0) 


j=2 
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C’est un nombre sans dimension (5.e. indépendant des unités), compris entre 0 et 1. La valeur 
de Ic est d’autant plus grande que l’amplitude des variations de X est grande, et/ou que la 
« possession » de X est très concentrée (chez les « gros » possédants), ces deux circons- 
tances cumulant leurs effets. 


FO} FOGx)} 
1 1 


0 1 FX) 0 7) 


Distribution peu concentrée Distribution très concentrée 


Théorème. L'indice Ic de concentration est égal à l’espérance mathématique de la 
valeur absolue de la différence du caractère X entre deux individus (choisis indépen- 
damment), soit, si X, et X2 sont deux « copies » indépendantes de X : 


Ic = E([X1 — X2}). 


Outre sa valeur en tant qu’interprétation concrète, ce théorème peut servir au calcul direct de 
Ic sans calculer aucune proportion : 


Ie = no Dm — x';) 


Ce théorème sert enfin à donner dans le cas continu une formule de calcul de IC par une inté- 
grale double. 


Exemple On considère une entreprise de 150 personnes où les salaires (en k€ par mois) 
sont répartis comme indiqué par le tableau ci-dessous : 


classe [1,0, 1,2[ | [1,2,1,5[ | [1,5,2,0[ | (2,0, 2,6[ | [2,6, 3,41 | [3,4, 4,8 
effectif 15 63 42 18 9 3 


(Les données sont les mêmes que celles de l’exemple donné ante pour la courbe de 
concentration). 


Calculer l’indice de concentration. 


Les valeurs cumulées ont déjà été calculées (en particulier N = 150 et Q =252,75). On 
redonne la partie du tableau utile pour les calculs : 


classe [xi_1, xil [1,0, 1,21 | [1,2, 1,50 | [1,5,2,0[ | [2,0,2,6[ | [2,6,3,4[ | [3,4, 4,8[ 
centre de classe x’; 1,1 1,35 1,75 2,3 3,0 4,1 
proportion F; 0,10 0,52 0,80 0,92 0,98 1,00 
PEAPOTON 0,065 0,40 0,68 0,845 0,95 1,00 
de la masse Q; 


© Dunod — La photocopie non autorisée est un délit. 


conditionnelle (espérance) 39 


Calcul de Ic par la première formule : 


5 
DO F,10) 
j=i 
(14 — fq1) +... + (sdé — f5q5) 
0,0062 + 0,0336 + 0,0504 + 0,0459 + 0,0300 
= 0,1661 


Ic 


Il 


(la concentration n’est pas très forte, comme on peut we 
ne : (x) 
d’ailleurs le constater visuellement sur la figure). 
conditions de Yule 
Voir Yule (conditions de). 
conditionnel, le (conditional) 


Premier sens : dans un espace probabilisé, qualifie les concepts modifiés par la connaissance 
d’un évènement fixé : évènements conditionnels, probabilités conditionnelles. 

Deuxième sens (voisin pour l’«esprit» mais nettement distinct pour la situation de 
référence) : dans une situation probabiliste ou statistique « bidimensionnelle » ou 
« multidimensionnelle », qualifie ce qui concerne une des variables lorsque l’autre est fixée : 
probabilités conditionnelles (en un sens restreint par rapport au sens général ci-dessus), 
densité conditionnelle, loi conditionnelle, effectifs conditionnels, fréquences condition- 
nelles, espérance ou moyenne conditionnelle, variance conditionnelle, écart-type condi- 
tionnel. 

Dans une situation statistique avec deux variables discrètes représentées par un tableau « de 
contingence », les effectifs conditionnels sont ceux des lignes ou des colonnes, et l’on 
calcule les fréquences conditionnnelles en effectuant les quotients par l’effectif total de la 
ligne ou de la colonne (effectif marginal). 


conditionnelle (espérance, variance) 


On considère un couple (X, Y) de variables aléatoires discrètes, dont la loi est donnée par les 
couples (x;, y;) de valeurs prises, et les probabilités ponctuelles (« loi jointe ») : 


Pi = P(X = x, et Y = y;}. 


Les lois marginales (avec des notations pas très cohérentes mais très utilisées) sont calculées 
comme suit : 


. = P(X = x. = A . = P(Y = à I — .P:;; 
pi = P(X=x%;) > Pi qd = PO =») = D p; 
Pour tous i, j, on peut définir la probabilité conditionnelle : 
P(X = x. et Y = y. Là 
BY = IX = x) = UE) à 
1 P(X=x) P, 
On définit l’espérance (théorique) de Y conditionnelle à X = x; comme le nombre : 
: : L : _ Pi; £ 2 
E(Y}X = x;) = >Pœ = »;[X = x;)y; = > noté E(Y|x;) en abrégé, 


i 


(selon les cas, il s’agira d’une somme finie ou d’une somme infinie). 
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On définit la variance (théorique) de Y conditionnelle à X = x; comme le nombre : 
Pi; 
Var(Y|X= x) = 2 PC =y;|X= x;)(;- EC) = 2, EYE 


(selon les cas, il s’agira d’une somme finie ou d’une somme infinie). 


À un niveau plus approfondi, on peut remarquer que l’espérance conditionnelle associe un 
nombre à toute valeur x; de la variable aléatoire X. En associant à ce nombre la probabilité p,;, 
on définit ainsi une nouvelle variable aléatoire, appelée « espérance mathématique de Y en 
X » et notée E(Y[X). Cette nouvelle variable aléatoire possède elle-même une espérance 
mathématique (un nombre), et l’on démontre alors la propriété E(E(Y|X)) = E(Y). 

On peut chercher à étendre les notions d’espérance conditionnelle et de variance condition- 
nelle au cas d’un couple de variables aléatoires absolument continues. Cela nécessite la défi- 
nition préalable de la « densité de Y conditionnelle à X = x » et l’on obtient les généralisations 
cherchées. On peut en appréhender intuitivement la signification par un passage à la limite, 
analogue à celui que l’on effectue pour appréhender la notion de densité de probabilité. Ces 
notions sont utilisées notamment pour définir la courbe de régression et le rapport de corréla- 
tion. 


Ces notions se transposent sans difficulté au cas d’un échantillon statistique à condition que 
l'échantillon soit constitué de q groupes d'observations relatifs à g valeurs x;, x, ..…., x,, avec 
pour le groupe n° i, n; valeurs observées y;1, y, …, y, de la variable Y (les formules qui 
suivent sont valables dès que l’un des n;, est 2 2 maïs ont peu d'intérêt si ce n’est pas le cas de 
la plupart !). On utilise les notations définies ci-dessus, et on pose n=n; +n,+...+n,.On 


définit la moyenne (empirique) de Y conditionnelle à X = x; comme le nombre : 
miY|X= x) = in , en abrégé m(Y|x;), ou ÿ, s’il n’y a pas d’ambiguité. 
On définit la variance eo. de Y conditionnelle à X = x; comme le nombre : 
Var(Y|X = x;) = . Oÿ - ÿ,)?, en abrégé Var(Y|x;). 


Pal 


conditionnelle (probabilité) (conditional probability) 


Probabilité définie en restreignant l’ensemble fondamental Q à la partie constituant un 
évènement À, de façon à modéliser convenablement les probabilités conditionnées par la 
survenue de A. 


Soient deux évènements À, B d’un espace probabilisé (Q, 4, P), avec P(A) 4 0. On appelle 
probabilité conditionnelle de l’évènement « B si A » (ou « B sachant A ») le quotient : 


P(A NB) 


P(B|A) = 0 


, 


On notera que P(A|A) = 1. 


Remarque : on peut se demander pourquoi on ne prend pas tout simplement P(A © B) 
comme définition de la probabilité conditionnelle de B sachant A. La réponse est très 
simple : il faut normer, i.e. imposer que la probabilité conditionnelle de A sachant A 
soit égale à 1, ce qui exige le dénominateur P(A). 
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Exemple On considère le lancer de 2 dés, représenté par un espace à 36 évènements 
équiprobables. On considère l’évènement A = « somme = 10 » et l’évènement B = « double ». 
Calculer la probabilité conditionnelle P(B|A). 


En vertu de l’équiprobabilité, il suffit de compter les évènements élémentaires : AN B = 


{(5, 5)} donc P(A NB) = + A={(4, 6), (5, 5), (6, 4)} donc P(A) = 2 de sorte que 


1/36 _ 1 6 _1 


= , que l’on peut comparer avec la probabilité « a priori » P(B) = — = 6 


P(B|A) = 22 = 
3/36 3 36 


Voir composées (formule des probabilités). 


confiance (intervalle de) (confidence interval) 


Voir estimation par intervalle. 


conjoint, e 
Voir joint, e. 


conjonction logique 


Voir intersection. 


contingence (tableau de) 


Voir tableau de contingence. 


continu (ensemble) (continuous set) 


Se dit d’un ensemble de nombres formé par un intervalle (la propriété essentielle — mais non 
caractéristique — est qu'entre deux nombres distincts quelconques de l’ensemble, il y en a 
toujours un autre, ce qui entraîne qu’il y en a toujours une infinité d’autres). S’oppose à 
discret, encore qu’il y ait des ensembles de type intermédiaire ou hybride. 


continue (variable aléatoire) (continuous random variable) 
Voir variable aléatoire (typologie). 


contraire 


Voir complémentaire. 


convergence (convergence) 
La convergence en calcul des probabilités est une notion multiforme et difficile à définir. Et 
en même temps, les théorèmes de convergence représentent l’outil mathématique indispen- 
sable pour fonder le calcul des probabilités et la statistique mathématique, ainsi que leur 
connexion. 

Voir convergence en probabilité, convergence presque sûre, convergence en moyenne quadra- 
tique. 


convergence en loi (convergence in distribution) 


La convergence en probabilité renseigne sur le comportement d’une suite de v.a. en donnant 
une information sur les probabilités relatives aux valeurs réellement prises « en situation » 
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d’épreuve aléatoire, mais on peut se contenter d’un renseignement théorique sur la loi 
des X,. 

On se donne une suite (X,) de variables aléatoires (réelles) définies sur un même espace 
probabilisé (Q, 4, P), et une variable aléatoire X définie également sur cet espace. On note 
(F,) les fonctions de répartition des X,, et F celle de X. On dit la suite (X,) converge en loi 


ss ji £ . ; 
vers X lorsque n tend vers l'infini, et on écrit X, — X, si, en tout point x pour lequel F est 


continue, On a : 
F,(x) — F(x) 


n— © 


Théorème. La convergence en probabilité entraîne la convergence en loi. 


A un niveau plus approfondi, on peut montrer que la convergence en loi est équivalente, 
moyennant certaines conditions supplémentaires qui ne seront pas données ici, à la conver- 
gence des fonctions caractéristiques. 


Voir central limite (théorème). 


convergence en moyenne quadratique (convergence in 

square mean) 
Outre les trois convergences « classiques » (en probabilité, en loi, presque sûre), il existe 
d’autres notions, notamment la convergence en moyenne quadratique, définie par 
E((X,-X})?) — 0, qui joue un rôle technique important en calcul des probabilités (elle 
entraîne la convergence en probabilité et a fortiori la convergence en loi, mais n’a pas de 
rapport d’implication avec la convergence presque sûre). 


convergence en probabilité (convergence in probability) 


Une théorie mathématique des phénomènes aléatoires n’aurait jamais vu le jour si l’on 
n’avait pas remarqué la convergence de la fréquence d’un évènement lorsque l’on répète 
indéfiniment l’épreuve : la limite de la fréquence est la probabilité de l'évènement. La 
convergence qui fonctionne ici s’appelle la convergence « en probabilité ». 

On se donne une suite (X,) de variables aléatoires (réelles) définies sur un même espace 
probabilisé (Q, A, P). On dit que la suite (X;) converge en probabilité vers la constante x, 


P 
lorsque n tend vers l'infini, et on écrit X,, — x, , si, pour tout e>0,ona: 


P(IX, _ *0)] >E)—0 


n— 


Dans cette définition, le rôle de x9 n’est pas celui d’un nombre mais celui d’une variable aléa- 
toire certaine. Cette remarque permet de généraliser de façon naturelle la convergence en 
probabilité. 

On se donne une suite (X,) de variables aléatoires (réelles) définies sur un même espace 
probabilisé (Q, À, P), et une variable aléatoire X définie également sur cet espace. On dit que 
la suite (X,) converge en probabilité vers la variable aléatoire X lorsque 7 tend vers l’infini, 


P 
et on écrit X, — X, si la suite (X, -X) converge en probabilité vers 0. 


Voir grands nombres (loi des). 
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convergence presque sûre (almost certain convergence) 


La convergence en probabilité oblige des probabilités à tendre vers 0, mais elle n’oblige pas 
vraiment la suite de variables aléatoires à tendre numériquement vers une valeur limite sous 
les yeux de l’expérimentateur ou de l’observateur. On peut donc imaginer une convergence 
plus forte que la convergence en probabilité. Ce type de convergence très technique est 
essentiellement utilisé par les mathématiciens professionnels. 

On se donne une suite (X,) de variables aléatoires (réelles) définies sur un même espace 
probabilisé (Q, 4, P). On dit que la suite (X,) converge presque sûrement vers la constante x0 


lorsque n tend vers l’infini, et on écrit x — Xo, Si la probabilité de l'évènement X, — x, 
n — © 

est égale à 1. 

Pour apprécier la portée de cette affirmation, sous la forme équivalente « la probabilité que 
X, ne tende pas vers x est nulle», il faut faire la différence entre un évènement 
« logiquement impossible » (en quelque sorte un évènement virtuel qui n’appartient même 
pas à l’espace probabilisé) et un évènement de cet espace probabilisé mais de probabilité 
nulle. Ainsi, pour une suite infinie de parties de P ou F l’évènement PPPPP... = « Pile chaque 
fois » est imaginable (logiquement possible) mais de probabilité nulle (il ne se produira pas, 
mais c’est très abstrait car personne n’ira expérimenter jusqu’à l’infini !) 

Dans la pratique (théorique), la probabillité de l'évènement global X, — x, n’est pas calcu- 

n— 


lable sans introduire par exemple les évènements E,(£) = {[X,-xo| >E}, pour écrire 


comme définition équivalente Ve > O0 lim P( M Eu(e)) = 0. 
n— °c ben 
Comme la convergence en probabilité, on peut généraliser de façon naturelle la convergence 


presque sûre (convergence vers une v.a. quelconque). 


Théorème. La convergence presque sûre entraîne la convergence en probabilité (et 
a fortiori la convergence en loi). 


correction de Sheppard (Sheppard correction) 
Correction qui débiaise le calcul d’une variance empirique effectué à partir des centres de 
classes qui sont des intervalles de longueur fixe. 

Voir variance. 


correction de Yates 


Voir Yates (correction [de continuité] de). 


corrélation (correlation) 


Lorsqu'il ne qualifie pas un indicateur numérique (le « coefficient de corrélation ») et qu’il 
est employé de façon « libre », ce terme renvoie à une situation où deux variables aléatoires 
X et Y — ou deux caractères statistiques — ne sont, ni entièrement liés (Y = f(X)) ni indépen- 
dants ; la nature de la « liaison » entre les deux variables ou les deux caractères est alors aléa- 
toire (au sens mathématique du mot, qui ne veut pas dire que c’est « n’importe quoi » !), et sa 
force peut souvent être mesurée par un coefficient numérique adapté. 
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corrélation (coefficient de) (correlation coefficient) 
Nombre réel sans dimension, compris entre —1 et 1, défini à partir de la covariance, qui 
mesure la « liaison » (ou la « dépendance ») entre deux variables aléatoires ou deux carac- 
tères statistiques. 

Le coefficient de corrélation (sans autre précision) devrait être qualifié de coefficient de corré- 
lation linéaire — quoique ce qualificatif ne soit que rarement ajouté : il est en effet spéciale- 
ment adapté à la mesure d’une « liaison » linéaire (ou plutôt affine), et on peut construire 
d’autres coefficients de corrélation, adaptés à d’autres types de « liaison ». 

Voir corrélation de deux variables aléatoires (coefficient de), corrélation de deux échan- 
tillons statistiques (coefficient de), corrélation multiple (coefficient de), corrélation partielle 
(coefficient de), corrélation des rangs (coefficient de). 


corrélation de deux échantillons statistiques (coefficient de) 

On considère un couple (X, Y) de caractères statistiques réels, et un échantillon observé de n 
valeurs numériques de ce couple ((x;, y1), (%; Ya), …,(x,, y,)). On note les moyennnes obser- 
vées x et y ; on note les variances et la covariance observées : 


s? = Var(X), Covx,y = Cov(X, Y), 5% = Var(Y). 
Le coefficient de corrélation (linéaire) de X avec Y est défini comme le quotient : 
D Gi-2)-5) 
: Covx y 11 


Ve 
SxS y i=n i=n 


” (x; - x)? Y O3)? 


i=1 i=1 


Remarque : si on calcule le coefficient de corrélation à partir d’estimations des 
variances et de la covariance, il importe peu que l’on utilise les estimations biaisées 
ou débiaisées (qui se traduisent par des dénominateurs n ou n —-1 dans les formules 
qui donnent F , Covx. y et sè ). Le quotient qui définit le coefficient de corrélation 
fait disparaître ces dénominateurs et annule donc l’effet des biais ou des débiais, 
donnant le même résultat numérique dans tous les cas. 


Le coefficient de corrélation statistique (parfois qualifié de coefficient de corrélation observé 
ou empirique) se note le plus souvent rx, y ou rxy ou r,, , où r,, (ou r s’il n’y a aucun risque 
de confusion), parfois Corr(X, Y) ou Corr(x, y). Pour éviter de mal interpréter des valeurs peu 
significatives, 1l est important de savoir que le poids de la « liaison » affine révélée par le 
coefficient de corrélation est correctement mesuré par le carré r2. 


Propriétés 
— C’est un nombre sans dimension, et on a toujours -1 < rx y < 1. 


— Sirx. y = 1 ou rx, y = —1, il existe une relation affine entre X et Y : Y = a + bX 
(pour tout n : y, = a + bx,, b étant du signe de rx y). 


Voir covariance. 


corrélation de deux échantillons statistiques (rapport de) 


On considère un couple (X, Y) de variables statistiques et on suppose que l’échantillon est 
composé de g groupes d’observations relatifs aux valeurs x1, x2, ..., x, de X, avec pour le 
groupe n° i, n; valeurs observées y,,, y», .…, y;, de la variable Ÿ, et on pose n = n1 + ñn2 + 
… +n4 (les formules qui suivent sont valables dès que l’un des n; est > 2 mais ont peu 
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d'intérêt si ce n’est pas le cas de la plupart !). On commence par calculer les moyennes 
conditionnelles : 


z 1+ 
. = MYIX=x,) = — se Ge 12; 
y: = mYIX=x;) Da À PPT) 
j=1 
q 
ñ : 
(nota : la moyenne totale de Y est y = >) 
n 
i=1 


On calcule ensuite les variances conditionnelles 


1 ñ; - 
Vary = Var(Y|X=x;) = mp O3)? G=1,2,...,9) 
n 


CRU 
; : Al — 
(nota : la variance totale de Y est Vary = : Y Y CO —y)*). 
i=lj=l 


Formule de décomposition de la variance (empirique) 


La variance Var, est la somme de deux termes : 
° la variance expliquée par la régression en X (ou encore variance inter-groupes), 

variance des moyennes conditionnelles : 

= Sn à 
Var() = Y—Gi-5) 
n 
i=1 

* la variance résiduelle (ou encore variance intra-groupes), moyenne des variances 

conditionnelles : 


q 
1 
l 
m(Varys.) = > ave 


i=1 


Avec les notations précédentes, on peut maintenant définir le rapport de corrélation (empi- 
rique) de Y en X comme le quotient de la variance expliquée par la régression, par la variance 
totale : 


2 Var(y;) 


e —— 
YIX 
Var, 


Le rapport de corrélation est noté e2 ou n2. Lorsqu'il n’y a pas de liaison statistique entre X 
et Y, il est nul. Lorsque la corrélation est linéaire (affine), il est égal au carré r? du coefficient 
de corrélation linéaire. Lorsqu'il est exactement égal à 1, la variance résiduelle m(Var,,,) est 
nulle, ce qui implique que Var,;,; est nulle pour tout i, et donc que la liaison entre X et Y est 
« fonctionnelle » : i et x; étant fixés, y; est constante (par rapport à j). 


corrélation de deux variables aléatoires (coefficient de) 


On considère un couple (X, Y) de variables aléatoires réelles, et on note les variances et la 
covariance : 


62 = Var(X), Covx, y = Cov(X, Y), 67 = Var(Y). 
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Le coefficient de corrélation (linéaire) de X avec Y est défini comme le quotient : 
Covx y 
OxS y 


Px,y = 
Le coefficient de corrélation se note le plus souvent px. y ou pxy (ou p s’il n’y a aucun risque 
de confusion), parfois Corr(X, Y). Pour éviter de mal interpréter des valeurs peu significa- 
tives, il est important de savoir que le poids de la « liaison » affine révélée par le coefficient 
de corrélation est correctement mesuré par le carré p2. 


En toute rigueur, il aurait fallu inclure dans la définition que l’on supposait que les espé- 
rances Lx et y existaient, de même que les variances et la covariance. 


Propriétés 


— C’est un nombre sans dimension, et on a toujours —-1 <px y=< 1. 


— Sipx.y = 1 ou px. y = —1, il existe une relation affine entre X et Y : Y = à + BX 
(cette relation est vérifiée « presque sûrement »). 


— Si X et Y sont indépendantes, on a px.y =0 (mais la réciproque est fausse). 


corrélation de deux variables aléatoires (rapport de) 


Dans le cas d’un couple (X, Y) de variables aléatoires, on peut utiliser les notions d’espé- 
rance conditionnelle E(Y[X = x) et de de variance conditionnelle Var(Y[X = x), (notions 
simples dans le cas discret, plus délicates dans le cas général) pour démontrer un théorème 
de décomposition de la variance marginale Var(Y) en deux termes : 
Var(Ÿ) = Var(E(Y|X)) + E(Var(Y[X)). 
La courbe y = E(Y[X = x) est la courbe de régression, et cette formule signifie que la variance 
marginale totale de Y est la somme d’un terme Var(E(Y|X)) qui est la variance expliquée par 
la régression et d’un terme E(Var(Y|X)) qui est la variance résiduelle de Y. 
Le rapport de corrélation de Y en X est défini comme le quotient du premier terme par la 
variance totale : 
2 _ Var(E(Y|X)) 
NWx = Var(Y) 
Lorsque X et Y sont indépendantes, il est nul (mais la réciproque est fausse). Lorsque la 
courbe de corrélation est une droite, il est égal au carré p2? du coefficient de corrélation 
linéaire. Lorsqu'il est exactement égal à 1, la variance résiduelle E(Var(Y[X)) est nulle, ce 
qui implique que Var(Y[X = x) est (presque sûrement) nulle pour tout x, et donc que la liaison 
entre X et Ÿ est fonctionnelle : il existe une fonction telle que Y = p(X) (presque sûre- 
ment). 


corrélation multiple (coefficient de) (multiple correlation coefficient) 


Nombre réel dans dimension, compris entre O0 et 1, qui mesure la «liaison » (ou la 
« dépendance ») globale entre une variable aléatoire (ou caractère statistique) et deux (ou 
plusieurs) autres. 

On considère un triplet (X, Y, Z) de variables aléatoires réelles, et on définit et on note les 
coefficients de corrélation (linéaire) simples comme usuellement. 

Le coefficient de corrélation multiple de Z avec X et Y, noté généralement pzxy, est défini 
comme le maximum du coefficient de corrélation simple entre Z et une combinaison linéaire 
BX + YY lorsque f et y varient. On peut calculer son carré par la formule : 
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Pxz + PYz — 2P xyP xzP vz 

1—PXy 
On a toujours 0 < pzxy < 1 ; lorsque pzxy = 1, il existe une relation affine entre X, Y et Z de 
la forme Z = à + BX + yY (cette relation est vérifiée « presque sûrement »). 
On rappelle que les poids des « liaisons » affines sont correctement mesurés par les carrés 
des coefficients de corrélation. 
On considère maintenant un triplet (X, Y, Z) de caractères statistiques réels et un échantillon 
observé de n valeurs numériques de ce triplet ((x1, y1, Z1), ..., (x, y z,)). On définit et on 
note les coefficients de corrélation (linéaire) simples observés comme usuellement. 
Le coefficient de corrélation multiple de Z avec X et Y, noté généralement rzxy, est défini 
par son carré : 


2 
Pzxy = 


2 2 
2  _ PXz + TYz  2rxvr xl yz 


TZRY = 122 
XY 

On a toujours 0 < rzxy < 1 ; lorsque rzxy = 1, il existe une relation affine entre X, Y et Z 
(pour tout n: 7, = a+bn,+cy,). 

Si on généralise la régression linéaire au cas « multidimensionnel », la droite de régression 
a + bX (ajustement Y = a + bX + E) est remplacée, dans le cas le plus simple de 2 variables 
«explicatives » X et YŸ, par un plan de régression a + bX + cY (ajustement Z = a + bX + cY 
+ E). Comme dans le cas simple, la corrélation de la variable « expliquée » avec l’écart E est 
nulle, et la variance se décompose : si on note R? = r3xy, la variance (marginale) s2 de Z 
est la somme de deux termes : la variance expliquée par la multirégression en X et 
Y:52,xsey = R252, et la variance résiduelle : 52 = (1 R2)s2. 

Le coefficient de corrélation multiple se généralise au cas d’un nombre quelconque de varia- 


bles (les formules ne sont pas données ici). 


corrélation partielle (coefficient de) (partial correlation coefficient) 


Nombre réel dans dimension, compris entre —-1 et 1, qui mesure la « liaison » (ou la « dépen- 
dance ») entre deux variables aléatoires (ou caractères statistiques) après « élimination » de 
l’effet d’une (ou de plusieurs) autres. 

Si par exemple X et Y présentent une forte corrélation, il se peut que cette corrélation résulte 
d’une corrélation commune à X et ŸY avec une troisième variable Z, et que la corrélation 
partielle (résiduelle) entre X et Y soit faible. C’est bien entendu une question d’interpréta- 
tion, les formules mathématiques étant neutres. Mais l'importance pratique peut être très 
grande dans les domaines (la pathologie par exemple) où la corrélation peut être l’indice 
d’une causalité : il ne faut pas prendre pour une causalité de X vers Y (ou vice-versa) une 
causalité provenant de Z pour les deux ! 

On considère un triplet (X, Y, Z) de caractères statistiques réels et un échantillon observé de 
n valeurs numériques de ce triplet ((x,, y1, z1), .…, (x,, Y,, Z,)). On définit et on note les coef- 
ficients de corrélation (linéaire) simples observés comme usuellement. 

Le coefficient de corrélation partiel de X et Y avec Z, noté généralement rxy.7, est défini par 
l'expression : 


L Fxv — Pxzlvyz 
=D 72) 


On peut vouloir tester la significativité d’un coefficient de corrélation partielle : elle se teste 
exactement comme la significativité d’un coefficient de corrélation mais en diminuant le 


FxYZ 
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nombre de degrés de liberté : si r = rxy.z, la variable de test est 1 = ML —3 ,etil faut 
1-72 

se rapporter à la table de la loi de Sudent à n —3 degrés de liberté (dans le cas simple dont la 

formule a été donnée ici et où l’on a éliminé l’effet d’une variable). 


corrélation des rangs (Kendall tau, Kendall rank 
(coefficient de — de Kendall) correlation coefficient) 
Nombre réel sans dimension, compris entre —1 et 1, qui mesure la «liaison » (ou la 
« dépendance ») entre deux variables aléatoires ou deux caractères statistiques ordinaux. 

Ce coefficient (comme celui de Spearman) est également utilisé pour apprécier, après leur 
transformation en rangs, la corrélation de deux variables numériques qui sont manifestement 
non normales, et pour lesquelles donc le coefficient de corrélation linéaire est non approprié. 
Mais il n’a de pertinence que si la liaison présumée entre les variables est monotone. 

Si on dispose de n « objets » ou individus et de deux variables classées, on peut attribuer dans 
chacun des classements un rang à chaque objet ou individu : r1, r2, ..., rn et 51, 52, ..., sn. Le 
coefficient de corrélation des rangs de Kendall est calculé à partir des concordances et discor- 
dances de classement pour chacun des en couples distincts (i, j) d'individus : si (r;, r;) 
et (si, s;) sont dans le même ordre, on compte 1, s’ils sont en ordre différent, on compte —1, 
puis on effectue la somme S de ces valeurs. 

Le coefficient de corrélation des rangs de Kendall est défini à partir de la somme S des 
concordances / discordances de classement des couples d’individus comme le quotient : 

_ __2S 

| n(n-1) 

On trouvera dans les manuels spécialisés le détail de la procédure à suivre pour adapter cette 
formule au cas d’ex æquo. On a t = 1 si les deux classements sont identiques, t =-1 s’ils sont 
inverses, et t = 0 s’ils sont (empiriquement) indépendants. 


Lorsqu'on utilise ce coefficient pour un couple de variables provenant d’une loi normale de 
coefficient de corrélation linéaire p, et si n est « grand », on a: 


T 


T= 2 Arc sinp, équivalent à p = sin(Fr). 
T 


Pour autant, on n’utilise pas cette relation pour tester la valeur du coefficient de corrélation 
des rangs de Kendall. En effet, il préférable d’utiliser le quotient : 


+ _— 

2(2n +5) 

On(n-1) 
qui suit approximativement une loi normale centrée réduite, avec une précision excellente 
dès que n > 8. 


& 


corrélation des rangs (Spearman rho, Spearman rank 
(coefficient de - de Spearman) correlation coefficient) 
Nombre réel dans dimension, compris entre —1 et 1, qui mesure la «liaison » (ou la 
« dépendance ») entre deux variables aléatoires ou deux caractères statistiques ordinaux. 

Ce coefficient (comme celui de Kendall) est également utilisé pour apprécier, après leur 
transformation en rangs, la corrélation de deux variables numériques qui sont manifeste- 
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ment non normales, et pour lesquelles donc le coefficient de corrélation linéaire est non 
approprié. Mais il n’a de pertinence que si la liaison présumée entre les variables est mono- 
tone. 


Si on dispose de n « objets » ou individus et de deux variables classées, on peut attribuer dans 
chacun des classements un rang à chaque objet ou individu : r1, F2, ..., rn et 51, 52, ..., s,. Le 
coefficient de corrélation des rangs de Spearman est simplement le coefficient de corrélation 
linéaire usuel entre les deux séries de rangs. Compte tenu des valeurs particulières prises par 
les rangs (les entiers de 1 à n), son calcul se simplifie considérablement et on peut l’exprimer 
en ne faisant intervenir que les différences d; = r;-s;. 


Le coefficient de corrélation des rangs de Spearman, est défini à partir des différences d; des 
classements comme l’expression 


6Y 4? 


sl, 
ù n(n2-1) 


On trouvera dans les manuels spécialisés le détail de la procédure à suivre pour adapter cette 
formule au cas d’ex æquo. On a r = 1 si les deux classements sont identiques, r =—1 s’ils sont 
inverses, et r = 0 s’ils sont (empiriquement) indépendants. 


Pour tester la valeur du coefficient de corrélation des rangs de Spearman, il faut se reporter à 
des tables spécifiques. 


Lorsqu'on utilise ce coefficient pour un couple de variables provenant d’une loi normale de 
coefficient de corrélation linéaire p, et si n est « grand », on a: 


Ts = $ Are sin(D) , équivalent à p = 2 sin (Er) : 


corrélation des rangs (tests de) (rank correlation tests) 


Tests non paramétriques qui contrôlent l’indépendance de deux variables en testant la nullité 
d’un coefficient de corrélation ad hoc constitué à partir des rangs de classement des deux 
variables et non à partir de leurs valeurs numériques précises. Ces coefficients et les tests 
correspondants n’ont de pertinence que si la liaison présumée entre les variables est mono- 
tone. Il existe un test pour chacun des deux principaux coefficients de corrélation des rangs, 
celui de Kendall et celui de Spearman. Leur fonctionnement est très similaire à celui du test 
de significativité d’un coefficient de corrélation. 


test de corrélation des rangs de Kendall 


+ Données. Un échantillon de n couples de rangs ((r1, 51), (r2, 52), .….,(7n, Sn)) (obtenu, soit par 
observation directe d’un couple (R, S) de rangs, soit par transformation en rangs des valeurs 
d’un couple (X, Y) de valeurs réelles). 


+ Hypothèse testée. Ho = « T = 0 » contre H, =« t 40 » (Ho est très proche de l’indépendance 
si la liaison présumée est monotone). 
+ Déroulement technique du test 


1. On calcule le coefficient t de corrélation des rangs de Kendall (voir corrélation des 
rangs (coefficient de — de Kendall)) 
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2. On calcule la variable de test 
T 


P2(2n +5) 
On(n-1) 


la valeur critique est à lire dans la table de la loi normale centrée réduite. 


r— 
& 


+ Conditions et précautions 
— n>8; 
— aucune autre, la loi théorique du coefficient de corrélation des rangs de Kendall ne 
dépendant pas de la loi des variables observées. 


test de corrélation des rangs de Spearman 


+ Données. Un échantillon de n couples de rangs ((r1, 51), (r2, 52), ….,(Tn Sn)) (obtenu, soit par 
observation directe d’un couple (R, S) de rangs, soit par transformation en rangs des valeurs 
d’un couple (X, Y) de valeurs réelles). 


+ Hypothèse testée. H5 = « rs = 0 » contre Hi = «r$ 0 » (H, est très proche de l’indépen- 
dance si la liaison présumée est monotone). 


+ Déroulement technique du test 
1. On calcule le coefficient r, de corrélation des rangs de Spearman. 
2a. Sin est petit (n < 30), on compare la valeur obtenue à la valeur critique lue dans une 
table spécifique du coefficient de Spearman. 
2b. Si n est grand (n > 30), on calcule la variable de test {= r$4/n-—1 et on compare la 
valeur obtenue à la valeur critique lue dans la table de la loi normale centrée réduite. 


+ Conditions et précautions 


Aucune, la loi théorique du coefficient de corrélation des rangs de Spearmann ne dépen- 
dant pas de la loi des variables observées. 


corrélation (rapport de) (correlation ratio) 


Nombre réel positif sans dimension, compris entre 0 et 1, défini à partir des paramètres d’une 
régression, qui mesure la « liaison » (ou la « dépendance ») entre deux variables aléatoires 
ou deux caractères statistiques, y compris dans les cas où cette liaison n’est pas linéaire 
(affine). Contrairement au coefficient de corrélation linéaire, le rapport de corrélation n’est 
pas symétrique. 


corrélation (test de significativité d'un coefficient de) 


Voir significativité d’un coefficient de corrélation (test de). 


couple de variables aléatoires (pair of random variables) 


On peut considérer simultanément deux variables aléatoires X, Y définies sur un même 
espace probabilisé (Q, À, P). À chaque évènement élémentaire © e Q, correspondent alors 
deux valeurs X(o) et Y(w), que l’on peut représenter par un couple (X(@), Y(w)). 

Il peut aussi arriver que les deux variables X et Y soient préalablement définies, séparément, 
sur deux espaces probabilisés (Q:, 41, P:) et (Q, 4, P2). Cette circonstance se produira le 
plus souvent lorsqu'on supposera que X et Y sont indépendantes. Pour considérer simultané- 
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courbe de concentration [de lorentz] 51 


ment X et Y, il faut commencer théoriquement par faire le produit des deux espaces probabi- 
lisés. Mais il n’est pas nécessaire dans la pratique, sauf exception, de construire explicitement 
ce produit pour pouvoir considérer le couple (X, Y). 

Le problème de base est de définir la loi de probabilité du couple (X, Y). On peut imaginer 
des situations mixtes, mais les deux cas les plus fréquents sont ceux où les v.a. sont toutes 
deux discrètes, ou bien toutes deux absolument continues. 


> Cas X et Y discrètes 
Si X et Y sont discrètes, la loi du couple est définie par la donnée (liste ou caractérisation) des 
couples (x;, y;) de valeurs prises, et les probabilités ponctuelles : 
Pi = P(X = x; et Y = y). 
Cette loi s’appelle la loi jointe (ou conjointe) du couple (X, Y). On peut si nécessaire expli- 
citer des lois marginales : 
p=PR=x)=Z;p;, g;= PNY =y)=2;p; 
(ces notations sont très commodes mais pas très cohérentes, on peut préférer p.. et p.;, surtout 
si on envisage de généraliser à plus de deux v.a.). Si X et Y sont réelles, on peut généraliser 
la notion de fonction de répartition : 
F(x, y) = P(X <xetY < y). 
Cas particulier important : si X et Y sont indépendantes, on a : 
piÿ=PX=x;etY = 7) = P(X = x;) P(Y = y) = pi ps, 
et 
F(x, y) = P(X <xet Y < y) = P(X < x) P(Y £ y) = Fi(x) Pop). 
> Cas X et Y absolument continues 
Si X et Y sont absolument continues, la loi du couple peut être définie de plusieurs manières. 
La façon la plus générale est celle par les probabilités d’intervalle : 
P(a; <X <b;et a < Y < b)). 
On peut aussi utiliser la notion généralisée de densité ; si E(x, y) est la densité jointe, on a : 


bi b; 
P(a < X < bi et a <Y<by= | o(u, v)dudv. 
ai 


a 
2 
Une autre manière consiste à utiliser la notion généralisée de fonction de répartition (même 
définition formelle que dans le cas des v.a. discrètes) : 


D(x, y)= P(X<xetY < y) = [ j. o(u, v)dudv. 


Quelle que soit la manière dont elle est définie, la loi s’appelle la loi jointe (ou conjointe) du 
couple (X, Y). On peut si nécessaire en déduire les lois marginales, avec leurs densités f{x) et 
g(»), et leurs fonctions de répartition marginales F(x) = P(X < x) et G(y) = P(Y < y). 
Cas particulier important : si X et Y sont indépendantes, on a : 

pG >) = 80) 
et : (x, y) = Fr) G(y). 


couplées (différences) 


Voir appariées (séries). 


courbe de concentration [de Lorentz] 


Voir concentration (courbe de — de Lorentz). 
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52 courbe de régression 


courbe de régression (regression curve) 
Courbe y = f{x) que l’on détermine pour rendre compte de la liaison probabiliste ou statis- 
tique entre deux variables. 

Étant donné un couple (X, Y) de variables aléatoires réelles on peut définir pour chaque 
valeur de x l’espérance conditionnelle E(Y[X = x) (notion mathématique délicate à définir 
dans le cas général, mais qui se comprend intuitivement très bien). Cette espérance condi- 
tionnelle est une fonction « ordinaire » de la variable x et on peut tracer sa courbe représen- 
tative appelée courbe (ou ligne) de régression de Y en x. 

Dans un certain nombre de cas, théoriques et pratiques, la courbe de régression est une 
droite, la droite de régression, et on est alors dans une situation de régression linéaire. 

Voir corrélation (rapport de). 


covariance (covariance) 


Nombre réel qui mesure la « liaison » linéaire (ou la « dépendance ») entre deux variables 
aléatoires ou deux caractères statistiques. 


Voir covariance de deux variables aléatoires, covariance de deux échantillons statistiques, 
formule de Huygens-Kônig. 


covariance de deux échantillons statistiques 


Formule 


Pour n couples d’observations individualisées (x, y1), (%, »2), …, (x y,), les 
moyennes X et y ayant été préalablement calculées : 


SD Gi). 


i=1 


con= 01 D-DO2- D) ++ (HOLD) 1 


n 


La covariance de X avec Y (parfois qualifié de covariance observée ou empirique) se note le 
plus souvent Covx, y ou Cov,. , ou Covxy ou Cov,, (ou Cov s’il n’y a aucun risque de confu- 
sion). 


Remarque : lorsque la valeur de la covariance doit intervenir dans des formules 
impliquant des lois de probabilité (notamment pour un intervalle de confiance ou un 
test d’hypothèse), il convient de remplacer l’estimation biaisée donnée par la formule 
« descriptive » ci-dessus par l’estimation débiaisée obtenue en remplaçant le dénomi- 
nateur ñn par ñ — 1 (cf. aussi estimation ponctuelle). 


covariance de deux variables aléatoires 


On considère un couple (X, Y) de variables aléatoires réelles, et on note leurs espérances 
mathématiques x et y. La covariance entre X et Y est l’espérance mathématique du 
produit des variables centrées 


Cov(X, Y) = E((X - Hx)CY — Hy)). 
Si les deux v.a. X et Y sont discrètes, caractérisées par les ensembles (finis ou dénombrables) 
de valeurs {x;} et {y;}, avec les probabilités jointes p;; = P(X = x; et Y = y;), on a : 
Cov(X, Y) = >». >, pu —Hx)O;-Uy) 


(selon les cas, il s’agira d’une somme finie ou d’une somme infinie). 
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Si X et Y sont absolument continues, caractérisées par la densité de probabilité jointe (x, y), 
on a: 


+oo +00 
Cov(x, Y)= ff @-1)G-uN)pG »axdy. 

Remarque : il n’y a pas de certitude que la somme converge ou que l’intégrale 

converge avant de l’avoir effectivement vérifié. 


La covariance de X avec Y se note le plus souvent Cov(X,Y) ou Covx. y ou Covxy. On notera 
que Cov(X, X) = Var(X). 

Propriétés 
— On a Var(aX + BY) = oœ2Var(X) + 2afBCov(X, Y) + B2Var(Ÿ) 


(cas particuliers intéressants : & = 1, B=+ 1). 


— Si X et Y sont indépendantes, on a Cov(X, Y)=0 (mais la réciproque est fausse). 


Cramer-von Mises (test [d'ajustement] de) (Cramer-von Mises test) 
Test non paramétrique qui compare la distribution d’un échantillon statistique à une distribu- 
tion fixée (par exemple : loi exponentielle de paramètre À spécifié, ou loi normale d’espé- 
rance et de variance spécifiées). Les distributions (lois) sont représentées par leurs fonctions 
de répartition, utilisées pour l’exécution du test. 


test bilatéral de comparaison d'une distribution de fonction 
de répartition F(x) à une distribution de fonction de répartition fixée Fo(x) 


+ Données. Un échantillon (x;, x, …, x,) de n valeurs observées d’une variable aléatoire 
numérique X de fonction de répartition F(x). 


+ Hypothèse testée. Ho = « F = Fo » contre Hi=«FZ4F». 


+ Déroulement technique du test 


1a. On ordonne les valeurs observées de l’échantillon — on suppose ce rangement effectué, 
soit, en gardant les notations initiales : 


Xi She SX: 


1b. Puis on pose : 


1 2, n 
F(x;) = =, F(x%) ==, ...,F(x,)=- = 1, 
n n n 
ce qui définit les « marches » de la fonction de répartition observée, qui est une fonc- 


tion « en escalier ». 
2. On calcule la valeur observée de la variable de test : 
1 ,+f2i-1 è 
@2 = — + —F,(x,) |. 
 12n > 2n 10) 
Les valeurs de référence de la variable de test sont à lire dans des tables obtenues par 
simulation, elles dépendent de la taille n de l’échantillon et du risque ©. Valeur limite : 


pour & = 0,05, la valeur critique de 1©2 (probabilité de dépassement 0,05) est équiva- 
lente à 0,4614. 
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54 critique (région) 


+ Conditions et précautions 

— Il n’y a pas d’autre précaution que de fixer complètement la loi de référence (donc en 
particulier d’éviter toute estimation de paramètres) ; 

— Lorsqu'il faut estimer des paramètres, il existe des tables obtenues par simulation. 
Valeur limite (Biometrika Tables) : pour & = 0,05, la valeur critique de nw2 corrigé 
lorsque l’on fait fonctionner le test de Cramer-von-Mises après estimation de l’espé- 
rance et de l’écart-type d’une loi normale, est équivalant à 0,126. 


Ce test possède les mêmes indications que le test de Kolmogorov. Malgré le peu de connaïis- 
sances théoriques sur la loi (indépendante de la distribution F) de la variable n@2? = 


[0 — F(x))?dF(x) (EF, désigne la loi empirique pour n observations de la loi F), ce 


test est considéré comme plus puissant que le test de Kolmogorov. En tout état de cause, il 
prend en compte la totalité des écarts et non pas seulement le plus grand. 


critique (région) 
Voir région critique. 
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Abréviation pour {nombre de] degrés de liberté. 


débiaisée (estimation) (unbiased estimation) 


Qualifie une estimation multipliée par un facteur correctif qui permet d’annuler son biais 
initial. Les deux cas les plus importants sont les estimations de la variance et de la covariance 


n n 
qui, sous leur forme primitive : : y (x;-x)? et : D (x;—x)(y;-— 5), sont biaisées. On les 
= de 

« débiaise » en remplaçant le dénominateur n par n — 1. La plupart des calculettes qui traitent 
les séries statistiques notent « 6, » la racine carrée de la variance biaisée, et « 6,_, » la 
racine carrée de la variance débiaisée. 

La question importante est de savoir quand on utilise l’estimation biaisée, et quand on utilise 
l’estimation débiaisée. Sauf cas particulier la réponse est simple : si l’on fait de la statistique 
descriptive, on utilise l’estimation « naturelle » et biaisée ; si l’on fait de la statistique infé- 
rentielle (intervalle de confiance, test d’hypothèse), on utilise l’estimation débiaisée. 


décile (decile) 
Indicateur de position attaché à une variable aléatoire réelle, utilisé essentiellement en statis- 
tique. Les déciles partagent la série des valeurs en deux parties de fractions & et 1 — & de 
l'effectif total, pour & = 10 %, 20 %, …, 90 %. Ils sont au nombre de 9. 

Si la signification concrète des déciles est simple et « parlante », la traduction formelle est 
plus délicate. On adaptera sans difficulté le formulaire détaillé pour la médiane. 


décomposition de la variance 

On considère un couple (X, Y) de variables numériques, soit dans une situation de modèle 
linéaire (X est alors un ensemble {x;} de valeurs « maîtrisées » et Y un ensemble {Yi} de 
variables aléatoires normales associées), soit dans une situation de régression linéaire ((X, Y) 
est alors un couple de v.a. qui suit une loi normale à 2 dimensions). On peut définir dans l’un 
et l’autre cas la droite de régression théorique y = & + Bx, et la droite de régression empirique 
y=a+pbx. 

On peut montrer qu’il y a une corrélation nulle entre la variable aléatoire o! + BX et la variable 
aléatoire écart E = Y — (& + BX). Cette propriété permet de décomposer la variance observée 
de Y en deux termes qui traduisent sa double origine (on observera que le coefficient de corré- 
lation intervient par son carré, lequel mesure correctement le poids de la corrélation). 


Décomposition de la variance (empirique) 


La variance s£ de Y est la somme de deux termes : 

. . » 2 . = 2 _ 2 2 
— la variance expliquée par la régression en X : Sa+bx = r's$, 
— la variance résiduelle : Sels. 


œ 
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56 défaillance (taux de) 


On notera que la variance résiduelle théorique sè = (1-p?)6$ est très exactement la 
variance que l’on a appelée conditionnelle dans le modèle linéaire comme dans la régression : 
variance 6? commune à toutes les v.a. Y; dans le cas d’une variable X contrôlée à valeurs x; 
et variance conditionnelle sfricto sensu 6? = G62(Y[X = x) constante (dans l’hypothèse 
normale) dans le cas d’un couple (X, Y) de variables aléatoires. 

La variance résiduelle est souvent appelée variance des résidus, les résidus étant les écarts 
y; (a+ bx;). 

Voir droite de régression, corrélation (rapport de). 


défaillance (taux de) (failure rate) 
On considère un « système » S (dispositif industriel, atome radioactif, être vivant, ...) 
pouvant être affecté par une défaillance (ou panne, ou mort, .….), et on introduit la variable 
aléatoire réelle T = « durée de vie de S » = « temps d’attente de la (première) défaillance ». 
On définit le taux de défaillance (ou taux de panne, ou taux de mort, ...) À(f) de S comme la 
« densité conditionnelle » : 


1 
A(t) = sun 3: P (défaillance entre f et + Ôt|pas de défaillance sur [0, f]) 
t—0 


1 
= lim = PH<T<1+01T<1), 
56 86 PE 
de : 2 à 5 __ F'(#) 
relié à la fonction de répartition F(9 = F(T < à par A(Ô = TF0 


Le cas de référence est celui d’un système « sans vieillissement » dont le taux de défaillance 
est constant : si À(f) = À, T est alors une v.a. exponentielle de paramètre À (et donc d’espé- 


rance « durée de vie » de S égale à D) 


Pour modéliser les situations avec vieillissement ou usure, on emploie souvent une v.a. de 
Weibull (avec paramètre B > 1) ou une loi d’Erlang (avec paramètre r > 1). 
Voir fiabilité. 


dégénérée (loi) (degenerate distribution) 


Voir singulière (loi). 


degrés de liberté (degrees of freedom) 


Locution qui qualifie le ou l’un des paramètres de certaines lois de probabilité. Lors de 
l'exécution d’un test d’hypothèse qui se réfère à cette loi, la valeur du paramètre degrés de 
liberté est déterminée par les conditions du test et notamment la taille et/ou la structure de 
l'échantillon. Même si cela n’est pas toujours apparent, le nombre de degrés de libertés est 
égal au nombre de valeurs recueillies ou de classes examinées, diminué du nombre de 
contraintes numériques, explicites ou implicites. 


de Moivre-Laplace (théorème de) (Moivre-Laplace limit theorem) 


Dénomination historique du théorème central limite (voir central limite (théorème)) lorsqu'il 
est énoncé dans le cas particulier d’une somme de v.a. de Bernoulli. 


dénombrable (enumerable, countably infinite) 
Qualifie un ensemble infini « numérotable », comme par exemple l’ensemble N des entiers 
naturels ou l’ensemble Z des entiers relatifs. Il existe des ensembles infinis « plus gros » que 
les ensembles dénombrables, par exemple l’ensemble R des nombres réels. 
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dénombrement (enumeration, counting) 
Terme générique qui désigne une situation où l’on compte des « configurations », formées à 
partir d’ «objets » pris dans un ensemble fini donné et disposés en respectant certaines 
contraintes ou certaines structures fixées. 

Les dénombrements (arrangements, combinaisons, permutations) jouent un rôle important 
en probabilités combinatoires, où l'hypothèse d’équiprobabilité ramène la détermination des 
probabilités à des comptes d'évènements élémentaires. 


densité [de probabilité] ([probability] density) 
Fonction réelle positive continue f associée à toute 

variable aléatoire réelle absolument continue X. Elle 

fournit par intégration les probabilités d'intervalle : fÀ 


b 
P(a<X<b) = for. 


La densité est la dérivée de la fonction de répar- 
tition : f(x) = F’(x), et inversement la fonction de 


répartition est sa primitive : F(x) = [: f()dt. O0! x x+5 x 


La densité possède la signification intuitive suivante : si deux points x et x + Ô sont « très 
voisins », comme la densité est une fonction continue, sa valeur est « à peu près constante » 
et égale à f{x) sur l'intervalle [x, x + Ô] ; alors la probabilité d’intervalle P(x < X < x + Ô) = 


ô 
[ f{t)df est « à peu près » égale au produit /(x)8 (cela est conforme à la signification stan- 


dard du concept de densité). 
On notera que la contrainte que la probabilité totale soit égale à 1 s’exprime par l'intégrale de 


la fonction densité : [co = |. 


La notion de densité se généralise naturellement et sans difficulté à un couple puis à un « n-uple » 
de variables aléatoires réelles. 


descriptive (statistique) 

Partie de la statistique qui étudie le recueil, la présentation et le résumé des données sans 
faire intervenir de modèle probabiliste. 

Voir statistique. 


détermination (coefficient de) (coefficient of determination) 


Expression qui désigne parfois, notamment dans un contexte de régression, le carré r? du 
coefficient de corrélation (on rappelle que le poids de la « liaison » affine révélée par le coef- 
ficient de corrélation est précisément mesuré par ce carré). 


diagramme en arbre 
Voir arbre. 


diagramme en barres (en tuyaux d'orgue, en bâtons...) (bar chart) 
Ces diagrammes sont des représentations graphiques très « parlantes » visuellement, que 
l’on peut utiliser aussi bien en calcul des probabilités qu’en statistique, pour des variables 
quantitatives continues comme pour des variables quantitatives discrètes. Diverses variantes 
graphiques (et diverses dénominations) sont utilisées. 


TT 


58 diagramme en secteurs 


Soit une distribution statistique réelle discrète et finie, i.e. un ensemble fini {x;} de nombres 
réels, présenté en suite croissante x, < x, < … < x,, avec des fréquences associées {f;}. 

On appelle diagramme en bâtons (ou en barres, ou en tuyaux d’orgue) de cette distribution 
toute représentation graphique imagée qui, pour chaque valeur x;, dessine un trait vertical ou 
un rectangle de hauteur proportionnelle à la fréquence f.. 

On peut étendre cette définition au cas probabiliste, en remplaçant les fréquences par les 
probabilités, cela ne soulève aucune difficulté. 

On peut étendre cette définition au cas d’une distribution discrète avec beaucoup de valeurs, 
ou d’une distribution continue, et la difficulté est alors celle d’une définition efficace des 
classes, regroupements de valeurs discrètes ou « tranches » continue de valeurs. 

Les figures ci-dessous présentent les variantes graphiques les plus usuelles. 


Cali. Cala. Lol. Left ff. 


Un certain nombre de conventions garantissent une représentation graphique fidèle de la 

distribution considérée. Les deux essentielles sont données ci-dessous. 

1. L’axe des abscisses porte les valeurs de la variable. Lorsque les valeurs représentées ne 
sont pas des valeurs ponctuelles mais des classes, elles doivent être marquées sur le 
graphique par leur milieu. Inversement, lorsqu’on représente des valeurs ponctuelles par 
des barres ou des tuyaux d’orgue, la valeur représentée doit être marquée au milieu de la 
base du rectangle barre ou tuyau d’orgue. 


2. L’axe des ordonnées porte les valeurs des fréquences ou des effectifs ou des probabilités 
(entre les fréquences et les effectifs il n’y a pas de différence visuelle, seule change la 
graduation des ordonnées). 


On confond parfois les diagrammes en barre et les histogrammes (qui sont toujours dessinés 
par rectangles contigus — en tuyaux d’orgue). La différence est la suivante : dans un 
diagramme (en barres ou en en tuyaux d’orgue), les hauteurs des rectangles sont proportion- 
nelles aux effectifs (ou aux fréquences ou aux probabilités), tandis que dans un histogramme, 
ce sont les aires des rectangles qui sont proportionnelles aux effectifs (ou aux fréquences ou 
aux probabilités), et les hauteurs représentent alors l’analogue d’une densité. Cela étant, 
lorsque les tranches sont toutes de largeur égale (ce qui est de toute façon préférable si c’est 
possible), les deux types de représentation graphique sont identiques. 

Signalons enfin la possibilité de représenter des diagrammes cumulés, en utilisant pour 
chaque valeur ou chaque classe la fréquence ou l'effectif cumulé. 


diagramme en secteurs (sector chart, pie chart) 
(en « camemberts ») 


Représentations graphiques de type circulaire pour des variables qualitatives discrètes. Les 
figures ci-dessous présentent trois variantes graphiques. 
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La « logique » de ces représentations est celle des histogrammes : les aires des secteurs 
circulaires sont proportionnelles aux effectifs. 


diagramme triangulaire (triangular chart) 
Représentation graphique d’un ensemble de données 

statistiques portant sur trois variables quantitatives dont À 

la somme est constante. La pertinence de la représenta- 3 


tion est fondée sur la propriété géométrique suivante : 
pour tout point intérieur à un triangle équilatéral, la 
somme des distances de ce point aux trois côtés est 
constante. (Les utilisations des diagrammes triangu- 


laires vont bien au-delà du domaine de la statistique). d,+d,+d;=a LE 
dichotomique (dichotomous) 


Se dit d’une variable aléatoire ou d’une variable statistique (ou caractère) qualitative qui 
prend seulement deux modalités (par exemple réponse oui ou non à une question). Selon le 
but poursuivi, une telle variable sera traitée comme une « vraie » variable qualitative, ou bien 
un codage par 1 et O0 permettra de lui attribuer des indicateurs numériques utilisables dans 
une analyse d'ensemble incluant d’autres variables. 


différences couplées 


Voir appariées (séries). 


discret (ensemble) (discrete set) 


Se dit d’un ensemble de nombres formé par des valeurs isolées (1.e. de nombres dont chacun 
est au milieu d’un intervalle qui ne contient que lui comme nombre de l’ensemble). S’oppose 
à continu, mais il y a néanmoins des ensembles de type intermédiaire ou hybride. 


Tous les ensembles finis sont discrets, mais il y a aussi des ensembles infinis discrets comme 


ne n. 


(discrete random variable) 


N (entiers naturels), Z (entiers), ou par exemple E = L a 
n 


discrète (variable aléatoire) 


Voir variable aléatoire (typologie). 


disjoints (disjointed sets) 
Se dit d'évènements A, B dont l'intersection est vide. On a alors P(A NB) = P(@) = 0. Le 
qualificatif logique synonyme est incompatibles. 


Étant donné un nombre supérieur à 2 d'évènements : A4, A, …, A, on prendra garde qu’il existe 
deux manières de généraliser cette propriété : soit en énonçant que les évènements sont 
« globalement » disjoints : A.MA,N...MNA, = O, ce qui ne présente en général guère 
d'intérêt, soit en énonçant que les évènements sont « 2 à 2 » disjoints : ViVji£j = A;NB; 
= O, propriété souvent très utile. 


disjonction logique 


Voir réunion. 
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dispersion (boîte de) 
Voir boîte de dispersion. 


dissymétrie (coefficient de) 
Voir asymétrie (coefficient d’). 


distribution ([probability, statistical] distribution) 
Dans un contexte probabiliste, synonyme de loi de probabilité (d’une variable aléatoire). 


Dans un contexte statistique, désigne généralement un échantillon statistique ou le tableau de 
valeurs qui le représente. 


données (data) 


Terme générique employé le plus souvent en statistique pour désigner les résultats recueillis 
lors d’une expérimentation ou d’une observation. 


données (analyse des) 
Voir analyse des données. 


données censurées 
Voir censurées (données). 


Doob (Joseph) 


Mathématicien américain (1910). Il a étudié les martingales et les processus stochastiques. 


droite d'ajustement (fitted line) 


Droite d’équation y = a + bx que l’on détermine pour représenter « au mieux » un nuage 
{(x;, y;)} de points observés. Dans un contexte de type déterministe avec erreurs de mesure, 
un type standard de méthode consiste à définir de façon générale une « distance » entre une 
droite et un nuage de points, et à déterminer la droite d’ajustement d’un nuage donné comme 


la droite qui minimise la distance à ce nuage. On prend généralement comme distance la 
n 


somme des carrés des écarts > (y;-(a+bx;))?, ce qui donne la droite des moindres 
i=1 

carrés. Dans un contexte de type intrinsèquement aléatoire, où les (x;, y;) sont des observa- 

tions d’un couple (X, Y) de v.a., on suppose que l’espérance conditionnelle E(Y|X = x) est 

une fonction affine de x : E(Y|X = x) = a + bx, et on ajuste la droite en minimisant la variance 

des écarts, ce qui donne la droite de régression. Les deux méthodes ne diffèrent que par la 

présentation et fournissent la même droite. 


droite de Henry (Henry line) 
Droite d’ajustement, dans une échelle « gausso-arithmétique », de la distribution statistique 
d’un échantillon d’une variable aléatoire normale, qui permet de déterminer graphiquement 
l’espérance et l’écart-type de la loi normale. Cette droite permet en outre de contrôler de 
façon sommaire l’hypothèse de normalité. 

Soit X une v.a. normale {U, 6), et soit F sa fonction de répartition. Si on désigne par II la 
fonction de répartition d’une v.a. normale centrée réduite, et g = IT-! la fonction réciproque, 
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droite de régression [linéaire] 61 


on a F(x) = n(ih) , d’où g(F(x)) = FE , équation d’une droite dans un système de coor- 


données où l’on porte en abscisses les valeurs de x, et en ordonnées les valeurs de g(F(x)). 
Comme le papier utilisé est « gausso-arithmétique », les ordonnées représentent l’écart dans 
une loi normale centrée réduite, mais l’axe est gradué de façon à permettre de reporter les 
valeurs de TI(x). 


Pour appliquer cette méthode à un échantillon statistique, il faut ordonner les valeurs obser- 


vées : x, <x) <… < x, , puis définir la fonction de répartition observée en posant F(x;,) = 05 ; 
n 
F(x-) = 1,5 _ n—0,5 : : 
(%) = —,..., F,)= ——=. On reporte alors les points (x;, F(x;)) sur le papier gausso- 
n n 


arithmétique, on trace au mieux la droite d’ajustement, et on détermine graphiquement les 
valeurs de L et de 6. Lorsque n est « petit », la « correction de continuité » de —0,5 est néces- 
saire. Lorsque n est « grand », cette correction est d’autant moins utile que l’on regroupe 
généralement les valeurs observées en classes et que l’on se contente de reporter les points 
correspondant aux extrémités des classes. 

Signalons que l’on appelle transformation en Probit la transformation y = 5 + g(F(x)) et 
Probit la valeur du résultat : ainsi les probits 3, 4, 5, 6, 7 correspondent aux valeurs 1 - 26, 
H — 6, LU, LU + 6, li + 26 de la loi normale ajustée. Certains papiers gausso-arithmétiques 
(papiers « Probit ») portent les Probits sur l’axe des ordonnées. Enfin, on peut utiliser des 
tables de conversion en Probit pour calculer soi-même les probits et utiliser un papier ordi- 
naire pour reporter les points de la droite de Henry. 


droite de régression [linéaire] (regression line) 


Droite d’équation y = a + bx que l’on détermine pour rendre compte de la liaison linéaire 
(affine) probabiliste ou statistique entre deux variables. Cette notion concerne deux types 
différents de situations mais les formules sont identiques. 

Dans le premier type de situation, on a un ensemble {x;} de valeurs « maîftrisées » ou 
« contrôlées » d’une variable x et, pour chaque i, une variable aléatoire Y:. On peut poser 
Y,=a+bx;+E, où chaque E; est une variable aléatoire « écart » ou « fluctuation ». La ques- 
tion posée est de rechercher les valeurs des coefficients numériques a et b qui minimisent — 
en un sens approprié de ce mot — globalement les écarts E,. Cette situation est souvent quali- 
fiée de modèle linéaire. 


Dans le second type de situation, on a un couple (X, Y) de variables aléatoires et l’on peut 
poser, de façon similaire au premier type de situation, Y = a+ bX+E, où E est une variable 
aléatoire globale « écart ». La question posée est de rechercher les valeurs des coefficients 
numériques a et b qui minimisent — toujours en un sens approprié du mot — l’écart E. Cette 
situation constitue la régression linéaire stricto sensu. 

Pour donner un fondement probabiliste aux formules de la régression linéaire utilisées en 
statistique, il faut faire certaines hypothèses. Comme très souvent, la méthode est 
« robuste » et les résultats restent admissibles si la réalité ne s’écarte « pas trop » de ces 
hypothèses (il existe d’ailleurs des tests qui permettent de contrôler la qualité de l’approxi- 
mation réalisée). 

Dans le premier type de situation, il faut supposer que les variables aléatoires Y; sont normales, 
indépendantes et de même écart-type. Seule leur espérance mathématique l1; = E(Y;) varie, et il 
faut enfin supposer que cette variation est une fonction linéaire (stricto sensu affine) de 
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x;: 203$ u;,= o&+/Bx;. Les coefficients numériques ot et f sont précisément ceux qui mini- 
misent globalement les écarts E,, et il faut les estimer à partir des données recueillies. 


À À 


Si on note globalement X l’ensemble {x;} des valeurs de la variable contrôlée, et si on note 
globalement Y la famille des variables aléatoires (Y;), on peut par convention appeler l’espé- 
rance U; = E(Y;) « espérance conditionnelle » (à X = x;) de Y, et la noter E(Y|X = x;) ; et on 
peut de même par convention appeler la variance 6? = 6?(Y;) « variance conditionnelle » 
(à X = x;) de Y, et la noter 6? (Y[X = x;) (dans le cas présent 6? = 6? ne dépend pas de x;). 
Dans le second type de situation, il faut supposer que le couple (X, Y) suit une loi normale à 
2 dimensions. Quoique ce soit un peu délicat, on peut définir mathématiquement l’espérance 
conditionnelle E(Y|X = x) et la variance conditionnelle 6? (Y|X = x). En tout état de cause, on 
peut percevoir intuitivement ce que sont ces notions. La loi normale à 2 dimensions que suit le 
couple (X, Y) possède une propriété fondamentale : l’espérance conditionnelle est une fonc- 
tion linéaire (affine) de x : E(Y]X = x) = a + bx, et la variance conditionnelle 6? (Y[X = x) = 
62 ne dépend pas de x (propriété appelée parfois homoscédasticité). Les coefficients numéri- 
ques © et f sont précisément ceux qui minimisent l’écart E. Ils sont fonctions des paramètres 
de la loi de (X, Y), et il faut les estimer à partir des données recueillies. 


Coefficients de la droite de régression (empirique) y = a + bx 


Formules globales des estimations : 


- Covx y- Covx y 

& = VX, a PE A 
52 52 
X X 


Traduction pour un échantillon de n couples de valeurs numériques observées 
(Qc Yi), (x, M), (Xp Yn)) : 
i=n 
i=n i=n D G-2)0:-5) 
i=1 
I=n 
i=1 i=1 SG) 
i=1 
(il existe plusieurs variantes (mineures) de ces formules). 
La droite de régression passe par le point (X, ÿ ) et peut aussi s’écrire : 


y X—X : $ = 
2 = ET ou encore y = ÿ + r—(x- x) 
Sy Sx sx 
Cov 
(rappel : r = —XY) 
SxSy 
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Le cas d’un échantillon de g groupes d’observations relatifs aux valeurs (« contrô- 
lées » ou aléatoires discrètes) x;, x, .…, Xg de X, avec pour le groupe n° i, n, valeurs 
observées y, Ya, …, in, de la variable Y,, se traite avec les formules précédentes (on 
peut trouver dans des ouvrages spécialisés des formules spécifiques, mais les moyens 
de calcul actuels leur ont fait perdre leur intérêt). 


On notera que, malgré leur forme statistique, ces formules sont exactement celles qui donnent 
les coefficients de la droite des moindres carrés. On notera aussi (cela rendra naturelle la géné- 
ralisation à plusieurs variables explicatives) que a et b sont les solutions du système : 


an+bŸ x; DR2 
aYx;+ bY x? dx: 


I=n 
(tous les signes > sont à comprendre comme > ), système qui résulte (naturellement !) de 
i=1 
la caractérisation du minimum dans la méthode des moindres carrés. 
Le terme de régression est dû à Galton et traduit le fait que, si l’on étudie par exemple la 
taille des enfants en fonction de la taille moyenne des deux parents, il y a « régression » vers 
la taille moyenne de toute la population ; en effet les enfants de parents grands sont eux- 
mêmes grands, mais un peu moins (en moyenne) que leurs parents, tendance qui résulte 
simplement du coefficient r < 1 dans l’équation standard de la droite de régression. 
Voir décomposition de la variance, loi des estimateurs et intervalles de confiance, prédic- 
tion, régression à deux variables explicatives. 


droite des moindres carrés (least square line) 
Étant donné un ensemble {(x;, y;)} de points observés qui se situent « à peu près » le long 
d’une droite, la droite des moindres carrés est la droite d’équation y = a + bx qui minimise la 
n 
somme des carrés des écarts > (y;-(a+bx;))?. 
i=1 


Coefficients de la droite des moindres carrés y = a + bx 


> Coordonnées du barycentre des points 


i=zn i=n 


XG — 1Dx EC D 


i=l i=1 


> Pente de la droite des moindres carrés 


izn 


Y (i-xG)(O;-Yc) 
b = i= 1 


I=n 
D Gi-x6)? 
i=l 


> Ordonnée à l'origine (la droite des moindres carrés passe par le barycentre) 
a= Ya — DXG. 
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64 Durbin-Watson (test de) 


Durbin-Watson (test de) (Durbin-Watson test) 


Test d’autocorrélation de rang 1 pour contrôler l’indépendance des résidus (e,), classés par 
valeurs croissantes de la variable x; , d’une régression. La variable de test est fabriquée comme 


n n 
F_ (e;—e;_1)? Fee; 
22e =2-2 Diet aie 0 da 
>. -14 > si 
Ce test n’est pertinent que si les valeurs de x; ne sont pas trop irrégulièrement espacées. Il est 


notamment utilisé en économétrie. On trouvera les détails de son fonctionnement dans les 
ouvrages spécialisés. 


un coefficient de corrélation : d = 
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N 


écart (deviation) 


Dans une distribution probabiliste ou statistique, étant donné un indicateur de tendance 
centrale C de la variable, on appelle écart la différence x — C entre une valeur prise x et C. Le 
plus souvent, l’indicateur est l’espérance mathématique 11 (en probabilités) ou la moyenne 
observée m (en statistique), et l’écart est donc x — LL ou x — m. 


On appelle « écart absolu » la valeur absolue de l’écart | x — pu] ou [x — ml. 


écart intercentiles (interpercentile range) 


Indicateur de dispersion attaché à une variable aléatoire réelle, utilisé essentiellement en 
statistique. C’est l’écart entre le premier centile et le dernier centile ; il englobe donc une 
partie médiane de la distribution de 98 % de l’effectif total. 


écart interdéciles (interdecile range) 


Indicateur de dispersion attaché à une variable aléatoire réelle, utilisé essentiellement en 
statistique. C’est l’écart entre le premier décile et le dernier décile ; il englobe donc une 
partie médiane de la distribution de 80 % de l’effectif total. 


écart interquartiles (interquartile range) 


Indicateur de dispersion attaché à une variable aléatoire réelle. C’est l’écart entre le quartile 
inférieur et le quartile supérieur ; il englobe donc une partie médiane de la distribution de 
probabilité 0,5 ou (en statistique) de 50 % de l’effectif total. 


écart réduit (reduced deviation, normal deviation) 
Dans une distribution probabiliste, d'espérance 11 et d’écart-type ©, ou statistique, de moyenne 
m et d’écart-type s, étant donnée une valeur x, on définit l’écart par la différence x — 1 ou 


. 10 ; Xx— x—m : : 
x— m. L'écart réduit est alors le quotient f = mn ; on peut aussi le « lire » dans 
[e} S 


l'écriture x=H +10 où x=m+ts. 


écart-type (standard deviation) 


Que l’on soit en probabilités ou en statistique, la dimension « métrologique » de la variance 
est le carré de la dimension de la variable, et il faut prendre sa racine carrée pour retrouver 
une valeur interprétable concrètement. 


L’écart-type est défini comme la racine carrée de la variance. 
En probabilités, on note 6(X) ou 6x (ou © s’il n’y a aucun risque de confusion) l’écart-type 


de la variable aléatoire X : 6(X) = /Var(X) = No2(X) : 


66 échantillon 


En statistique, X étant la variable aléatoire dont on étudie un échantillon, on note le plus 

souvent sx Où s, (ou s s’il n’y a aucun risque de confusion) l’écart-type (parfois qualifié 
; c > ie se =) co 

d’observé ou d’empirique) : sx = ,/Varx = ,/54. 


échantillon ([random] sample) 


Concept commun au calcul des probabilités et à la statistique, désignant, soit une suite (les 
mathématiciens disent un « n-uple ») X1, X2, …, X, de n variables aléatoires indépendantes et 
de même loi, soit une suite x1, x2, …, x, de n Valeurs prises par n variables aléatoires indépen- 
dantes et de même loi (dans la pratique, on pourra observer le résultat de n expérimentations 
simultanées, ou bien observer successivement les n résultats d’une expérimentation renou- 
velée n fois à l’identique). 

Il peut arriver que l’exigence d’indépendance soit affaiblie ou abandonnée. On devra alors 
préciser explicitement que l’on considère un échantillon indépendant lorsque cela sera le cas. 


Étant donnée une « population », le même mot est souvent enployé pour désigner le résultat 
du « tirage » aléatoire de n « individus » dans cette population, avant l'observation d’une 
variable statistique (ou caractère) défini sur la population. 


échantillon représentatif (representative sample) 


Échantillon permettant d’estimer efficacement et sans biais les caractéristiques de la popula- 
tion dont il est issu. C’est le cas des échantillons firés au sort (avec la même probabilité pour 
chaque individu de la population), mais c’est également le cas d’échantillons constitués 
selon des méthodes qui permettent d’améliorer la précision des estimations sans altérer la 
représentativité. 


Voir sondage. 


échantillonnage (sampling) 
Opération de recueil de données pour un échantillon d’individus d’une population. 


Ce mot est l’exact synonyme de sondage, même si les habitudes font utiliser préférentielle- 
ment l’un ou l’autre selon les situations. 


échantillons appariés 


Voir appariés (échantillons). 


effectif ([samplel] size, class number) 
Nombre d’individus d’une classe ou d’un échantillon. 


L’effectif total d’un échantillon s’appelle souvent la faille de l’échantillon. 


élasticité (elasticity) 
Terme utilisé en statistique économique pour qualifier le « quotient des variations relatives » 
CPS : l’élasticité est constante lorsque la liaison (exacte ou approchée) est du type 
dx/x y/x 

y = bxc, l’exposant c est l’élasticité (ou le coefficient d’élasticité), et ce type de liaison se 
traduit par une droite sur un graphique logarithmique : In y = In b + c In x). 
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empirique (empirical) 
Lorsque cet adjectif n’est pas employé dans son sens général de la langue courante (procédé 
ou méthode empirique, ...), il est synonyme d’« observé » et qualifie les paramètres des 
distributions statistiques (moyenne empirique, variance empirique, ...), par opposition aux 
paramètres « théoriques » correspondants des lois de probabilités. 


entropie (entropy [of information source]) 


Dans le cadre de la théorie de l'information, on appelle système simple la donnée d’un 
espace probabilisé (Q, 4, P) et d’une partition finie de cet espace, dont on note généralement 
A; les évènements et p; les probabilités correspondantes, ou bien d’une variable aléatoire 
finie X, dont on note généralement À; les valeurs prises et p; les probabilités correspondantes. 
Ces deux présentations sont bien sûr équivalentes, la deuxième a l’avantage de permettre 
d’employer le concept d’espérance mathématique. 


Soit X = {Ai} un système simple. On définit l’entropie de X comme l’espérance mathéma- 
tique de la quantité d’information apportée par la réalisation d’un évènement du système : 


HO = EG) = Y',. XP(AI(A) = Y p:logp.. 


On utilise généralement le logarithme à base 2, et l’entropie s’exprime alors en bits. 

Cette notion a été introduite en théorie de l’information par Hartley, puis développée par 
Shannon. Elle a la même signification concrète que l’entropie introduite un siècle auparavant 
par Clausius en physique statistique, puis étudiée par Boltzmann : une forte entropie signifie 
désordre, manque d’information, incertitude. 


L’entropie est généralement notée H par les mathématiciens et S par les physiciens. 


Théorème. Si X est un système simple à n « états », on a : 
H(X) < log, n, 
avec égalité si et seulement si les n états sont équiprobables. 


L’entropie est maximale si les n états sont équiprobables, ie. si le système est dans l’incerti- 
tude maximale. 


Exemple Si une source d’information, représentée par un système simple S, émet 
aléatoirement deux symboles (penser par exemple aux pixels Noir et Blanc générés pour une 
télécopie) avec probabilités p et g = 1 — p, l’entropie de S (i.e. la quantité moyenne d’information 
apportée par l’émission d’un symbole) est : 


h(p) = — p log2 p — (1 — p) log2 (1 — p). 


Si par exemple p = 0,2 et 1 — p = 0,8, on a H(S) = A(0,2) = 0,722 bit (quantité qui n’est pas 
très inférieure au maximum 1 bit) ; si par exemple p = 0,05 et 1 — p = 0,95, on a H(S) = 
h(0,05) = 0,286 bit (quantité qui n’est pas très petite). 


épreuve (trial) 
Concept probabiliste qui modélise l’expérimentation ou l’observation d’un phénomène aléa- 
toire. 


Formellement, étant donné un espace probabilisable (Q, 4), une épreuve est définie comme 
le « tirage » d’un évènement élémentaire © € Q , qui est le « résultat » de l’épreuve. 


68 épreuves répétées 


Exemples Lancer un dé, tirer une carte dans un jeu, tirer une boule dans une urne, prendre 
« au hasard » un individu dans une population, prélever un échantillon d’un minerai, croiser 
deux individus en génétique, mettre en service un dispositif susceptible de tomber en panne, 
ensemencer une parcelle (dont on mesurera par exemple le rendement), tirer une balle dans 
une cible, répondre à une question dans un jeu, jouer un match, etc. 


épreuves répétées 
Locution qui qualifie une succession d’épreuves indépendantes et identiques. Ces épreuves 


étant représentées par des variables aléatoires X;, on écrit souvent que les X; sont « 1.1.4. » : 
indépendantes et identiquement distribuées. 


On note L l’espérance mathématique commune aux X; réelles et 62 leur variance 
commune. 


On définit la somme : 
Sa=Xi+X2+.+Xy 


et la moyenne : 
X,+X,+..+X, 


M, 
On a alors : L 
E(S:) = nn EM) = LL 
Var(S,) = no? Var(M,) = co? 
n 
O(S») = 6 /n o(M,) = + 
(Sr) n (Mi) pe 
équiprobabilité (equipossibility) 


Hypothèse qui pose que tous les évènements élémentaires d’un espace probabilisable fini ont 
la même probabilité. Cette hypothèse permet de ramener la détermination des probabilités à 
des calculs de dénombrements. 


Soit un espace fini équiprobabilisé dont l’espace fondamental Q est constitué par N 
évènements élémentaires, et soit À un évènement constitué par k évènements élémen- 
taires, alors : 


a: 
P(A)= À 


Une formulation imagée ancienne énonce que P(A) est égal au quotient du « nombre de cas 
favorables (à A) » par le « nombre (total) de cas possibles ». 

On justifie souvent l’hypothèse d’équiprobabilité par des raisons de symétrie, géométrique 
et/ou mécanique. Plus modestement (plus lucidement ?) Bernoulli avançait le principe de 
«raison insuffisante » (que l’on pourrait traduire plus brutalement par principe d’égale igno- 
rance). Quoi qu’il en soit, on ne démontre pas l’équiprobabilité, on la pose en hypothèse (et 
on peut envisager ultérieurement de la tester par une étude statistique). 


équitable (fair) 


Voir pari. 
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Erlang (loi d’) 69 


erf (error function) 


Intégrale numérique que l’on trouve dans de nombreux « packages » logiciels et qui est liée 
à la fonction de répartition de la loi normale : 


2 f# 
erf(x) = —| edf. 
fl 
Valeurs particulières : 
erf(—-c)=-1 ; erf(0)=0 ; erf(o)=1 


X 
Si F(x) = —| e-"”/2df est la fonction de répartition de la loi normale centrée réduite, on a : 
T°0 


ÉGÜ= 24 (>) 


erfc (complementary error function) 


Intégrale numérique que l’on trouve dans de nombreux « packages » logiciels et qui est liée 
à la fonction de répartition de la loi normale : 


erfc(x) = 1 — erf(x). 


Erlang (loi d') (Erlang distribution) 


Loi d’une variable aléatoire continue, cas particulier de la loi gamma pour les valeurs 
entières du premier paramètre, et qui est notamment utilisée comme temps d'attente dans le 
processus de Poisson. 


Formulaire 


Un paramètre entier et un paramètre réel : re N°; Àe R° (paramètre d’échelle de 
temps). Valeurs sur les réels positifs. 


> Loi de probabilité 


densité fonction de répartition 
_ À —Àx r-1 = ex (67) si 
f(x) = G-1° (Ax)"-1(x>0)  F(x) = 1- >. an (x20) 
> Valeurs caractéristiques 
— espérance : E(X) = : 
: : Te 
— variance : Var(X) = TE 


— écart-type : G(X) = 


> Cas particulier 


Pour r = 1, la loi d’Erlang est la loi exponentielle. 


70 espace fondamental 


> Utilisations 
En théorie, la loi d’Erlang de paramètres r et À est la loi de la somme de r variables aléatoires 
exponentielles de paramètre À et indépendantes. 


Dans la pratique, la loi d’Erlang est principalement utilisée comme loi du temps d’attente qui 
sépare les évènements numéros k et k + r dans un processus poissonnien de taux À, par 
exemple une succession de pannes à « taux de défaillance » constant. 

Elle est également utilisée comme loi de la durée de vie d’un système complexe dont le taux 
de défaillance augmente avec le temps : à la différence des lois de Weibull, les lois d’Erlang 
(avec r > 2) permettent de modéliser des situations avec des taux de défaillance croissants 
mais néanmoins bornés et tendant vers une limite. 


Voir gamma (loi). 


espace fondamental (basic space, event space, sample space) 
Ensemble de tous les évènements élémentaires susceptibles de se réaliser comme résultats de 
l’expérimentation ou de l’observation d’un phénomène aléatoire. 

Pratiquement toujours noté Q, il est parfois appelé univers ou univers des possibles. 


espace probabilisable (measurable space) 


Association d’un espace fondamental Q@ d’évènements « élémentaires » possibles et d’une 
famille À de parties (évènements) de Q, dont on pourra ultérieurement définir ou calculer la 
probabilité. 
Lorsque Q est fini ou dénombrable, on peut prendre pour À l’ensemble P(Q) de toutes les 
parties de Q (et en général on le fait). Mais, dès que Q n’est pas fini ou dénombrable, on se 
heurte à des difficultés mathématiques qui imposent de prendre une famille restreinte de 
parties. 
On définit formellement un espace probabilisable comme un doublet (Q, 4) constitué par : 
— un ensemble non vide Q, appelé espace fondamental, 
— une famille À de parties de Q possédant les propriétés d’une tribu (ou 6-algèbre). 


Les deux cas les plus employés en calcul des probabilités sont, si Q est fini ou dénombrable, 
A = la tribu P(Q) de toutes ses parties et, si Q =R, À = la tribu des boréliens de R. 


Remarque : on trouvera dans certains manuels de probabilité le terme « espace 
mesurable », il est parfaitement synonyme d’« espace probabilisable ». 


Voir dénombrable, tribu. 


espace probabilisé (probability space) 


Association d’un espace fondamental Q d’évènements « élémentaires » possibles, d’une 
famille À de parties (évènements) de Q, et d’une « mesure » de probabilité. 


La mesure de probabilité fournit la probabilité de chaque évènement de À, mais doit vérifier 
un certain nombre de propriétés (ou « axiomes ») destinés à assurer, d’une part la cohérence 
interne de l’assemblage ainsi composé, d’autre part un fonctionnement permettant de modé- 
liser efficacement les situations concrètes aléatoires. 

La construction des espaces probabilisés en deux temps : espace probabilisable, puis mesure 
de probabilité, donne la possibilité de « munir » un espace probabilisé de plusieurs mesures 
de probabilité différentes. 
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On définit formellement un espace probabilisé comme un triplet (Q, À, P) constitué 
par : 

— un ensemble non vide Q, appelé espace fondamental ; 

— une famille À de parties de Q@ possédant les propriétés d’une tribu (ou 6-algèbre) ; 

— une application P : À — [0, 1] possédant les propriétés d’une mesure de probabilité. 


espérance mathématique (expectation, expected value) 


Principal indicateur numérique de tendance centrale attaché à une variable aléatoire réelle. 
Sa signification concrète est celle d’une moyenne des valeurs prises, pondérée par les proba- 
bilités. Il joue un rôle important, associé à la variance ou à l’écart-type, dans de nombreux 
théorèmes et de nombreuses formules. 


L’espérance d’une variable aléatoire X se note le plus souvent E(X) ou lux (ou pi s’il n’y a 
aucun risque de confusion), ou encore X ; si @ est une fonction numérique, E(X) est une 
variable aléatoire (cf. définition des variables aléatoires : une fonction de fonction est une 
fonction), et son espérance se note E(@(X)). 


Si la v.a. réelle X est discrète, caractérisée par l’ensemble (fini ou dénombrable) de 
valeurs {x}, avec les probabilités ponctuelles p; = P(X = x;) , on a: 


E(X) = D xP(X = x;) = D xp: 


(selon les cas, il s’agira d’une somme finie ou d’une somme infinie). 
Si X est absolument continue, caractérisée par la densité de probabilité f(x), on a : 


EX = | fox. 


Si @ est une fonction numérique, on a, selon le cas : 
E(p(X)) = D. PG)P(X = X;) D 1077 


Où : 


E(ER)= | of ax. 


Il faut faire deux remarques. Primo, il n’y a pas de certitude que, si l’ensemble des valeurs 


+00 
est infini, la somme 7. Xp; converge, ou que l’intégrale J xf(x)dx converge avant de 
FRE 


l’avoir effectivement vérifié. Il existe des variables aléatoires qui n’ont pas d’espérance 
mathématique, par exemple la « v.a de Cauchy ». Secundo, les formules qui donnent E(E(X)) 
ne sont pas, malgré leur apparence, évidentes, et il faut les démontrer. 


Exemple On considère une situation d’assurance d’un risque, que l’on modélise de la 
façon simplifiée suivante : l’assuré paye une prime annuelle P, et trois éventualités (dans 
l’année et par assuré) sont possibles : 

aucun sinistre probabilité p1 = 0,95 coût pour l’assureur 0 € 

« petit » sinistre probabilité p2 = 0,04 coût pour l’assureur 500 € 

« gros » sinistre probabilité p3 = 0,01 coût pour l’assureur 5 000 € 
On demande à partir de quel montant de la prime l’assureur fait du bénéfice. 


72 estimateur 


Il faut introduire une variable aléatoire G = gain de l’assureur, étant entendu que ce « gain » 
peut être positif ou négatif. La v.a. G prend la valeur g, = P avec la probabilité p1, la valeur 
g2 = P — 500 avec la probabilité p>, et la valeur g3 = P — 5 000 avec la probabilité p3, donc : 


E(G) = p181 + P282 + P383 
= 0,95 P + 0,04 (P — 500) + 0,01 (P — 5 000) = P — 70. 
L’assureur doit donc fixer un montant de prime supérieur à 70 € pour avoir une espérance 
mathématique de gain positive (le problème de la stratégie de l’assureur n’est pas 
complètement résolu pour autant et il resterait à examiner, pour n clients, les fluctuations du 
gain réel par rapport à n fois l’espérance mathématique). 


L’analogue statistique de l’espérance mathématique est la moyenne (éventuellement qualifiée 
d’observée ou d’empirique). 


estimateur (estimator) 
Dans une situation d’épreuves répétées (X1, X2, …, X,), un estimateur est une variable aléa- 
toire fonction des X; : Y, = Y,(X1, X2, …, X,), dont les valeurs observées permettront 


d’obtenir des estimations de paramètres de la loi de probabilité commune aux X;. 
Par exemple, si HL est l’espérance mathématique de la loi des X;, la moyenne M, = 


X,+X)+...+X 


* est un estimateur de LL. 


n 


Il n’y a pas de définition formelle des estimateurs, pour la simple raison qu’il n’est possible, ni 
techniquement ni conceptuellement, d’introduire des restrictions pour adapter les estimateurs 
aux paramètres considérés. étant donné un paramètre 6, n’importe quelle variable aléatoire 
fonction des X; est un estimateur de 6. Par contre, il est possible de préciser mathématiquement 
les « qualités » d’un estimateur (ou plus précisément de la famille (Y,(X1, X2, …, Xy))n> 1). 
Voir estimateur convergent, estimateur sans biais, estimateur asymptotiquement sans biais, 
estimateur efficace. 


estimateur asymptotiquement sans biais (asymptotically unbiased 
estimator) 

La variable aléatoire YŸ, est un estimateur asymptotiquement sans biais du paramètre @ si 

E(Y,) — 8 lorsque n tend vers +co. 

Il est bien entendu préférable qu’un estimateur soit sans biais mais cela est techniquement 

impossible à obtenir simplement dans de nombreuses situations, et les estimateurs asympto- 

tiquement sans biais peuvent être de très « bons » estimateurs. 


estimateur convergent (consistent estimator) 
La variable aléatoire Y, est un estimateur convergent du paramètre 6 si E(Y,) “ 6 lorsque 
n tend vers +c (il s’agit de convergence en probabilité mais dans la pratique la plupart des 
estimateurs convergent « presque sûrement »). Cette propriété est la plus importante qu’il 
faille exiger d’un estimateur. 

Si un estimateur est convergent, il est asymptotiquement sans biais. Inversement, on peut 
démontrer que, si un estimateur est asymptotiquement sans biais et si sa variance tend vers 0 
lorsque n tend vers +c, il est convergent. 


estimateur efficace (efficient estimator) 


La précision d’un estimateur est liée à sa variance, mais il ne suffit pas d’imposer une variance 
minimale pour obtenir le meilleur estimateur, car tous les estimateurs certains (1.e. de valeur 
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constante) sont de variance nulle ! Il faut donc ajouter une condition sur l’espérance mathéma- 
tique. 

La variable aléatoire Y, est un estimateur efficace du paramètre 8 s’il est sans biais et s’il est 
de variance minimale parmi les estimateurs sans biais. 


estimateur sans biais (unbiased estimator) 


La variable aléatoire Y, est un estimateur sans biais du paramètre 8 si E(Y,) = 6. 


estimation [ponctuelle] (estimation, estimate [valuel) 


Lorsque ce mot ne désigne pas la théorie générale de l’estimation, il désigne la valeur numé- 
rique prise par une variable aléatoire estimateur sur un échantillon statistique. Par exemple, 


X,+X,+...+X 


la variable aléatoire « moyenne » M, = "est un estimateur de l’espérance 


n 


XitX+.. +4, 


mathématique, et la moyenne observée m ou x = est une estimation de 


n 
cette espérance. 

Les estimations (ponctuelles) classiques dont la liste suit sont produites par les meilleurs 
estimateurs pour une grande classe de lois de probabilités (incluant notamment la loi 
normale). Néanmoins, pour certaines lois particulières, il peut exister des estimateurs 
meilleurs. 


Voir loi des estimateurs dans une régression et intervalles de confiance. 


> estimation d'une espérance mathématique 
Loi d'espérance L ; échantillon de n observations individualisées x1, x2, …, xn. 


Estimation standard de 1 par la moyenne : 


Hit + 


n 


> estimation d'une probabilité 


Évènement A de probabilité p ; échantillon : sur 7 épreuves répétées, A a été observé 
na fois. Estimation standard de p par la fréquence : 


2A 
n 
> estimation d'une variance 


Loi d’espérance l et de variance ©? ; échantillon de n observations individualisées x1, 
X2, …, Xn, Estimation préalable de 1 par X (cf. ci-dessus). 


Estimation biaisée de 6? par l’écart quadratique moyen : 


Gi-2)2+(x-x)2++(x 2) 1 
Re RE 2 ARR | ue 
(n) n a 2 (3 x) 


(l’estimateur correspondant a pour espérance mathématique ls ). 
n 
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Estimation débiaisée de 6? par l’écart quadratique moyen corrigé : 


_ Gi + Gone + (= 1 © 
D A © ee gi 


n-]1 
i=l 


(l’estimateur correspondant a pour espérance mathématique ©?). 
> estimation d'un écart-type 


Loi d’espérance L et de variance 2. 
Estimation de 6 par la racine carrée de l’estimation de la variance : 


Vénou V1, (Selon l’utilisation). 


> estimation d'une covariance 


Formules analogues aux estimations de la variance. Voir covariance. 


> estimation d'un coefficient de corrélation 


Loi à deux variables d’espérances X et ÿ (n’interviennent pas directement dans la 
formule), de variances 5? et s£ , de covariance Covx +. 


Estimation de p par le quotient : 
Cov 
= X,Y 


SxSy 


estimation par intervalle (interval estimation) 


Remplacement, dans une estimation, de la donnée d’une valeur ponctuelle par celle d’un 
intervalle entourant cette valeur, dont les extrémités dépendent d’un seuil de confiance fixé a 
priori. Cet intervalle s’appelle intervalle de confiance du paramètre. Dans la présentation de 
résultats au public, on parle souvent de fourchette (malheureusement trop souvent sans 
préciser ni la taille de l’échantillon ni le seuil de confiance). 


La détermination théorique d’un intervalle de confiance pour un paramètre 8 d’une loi de 
probabilité nécessite d’utiliser un estimateur Y =Y,(X1, X2, …, X,) de ce paramètre. Si on se 
donne le seuil de confiance 1 — &, et si on cherche un intervalle à risque symétrique, on peut 
déterminer, pour toute valeur 6 du paramètre, l’intervalle « d’acceptation » [,(8) = [y1, y2] 
caractérisé par : 


œ œ 
SE 


On obtient ainsi un encadrement probabiliste de l’estimation lorsque le paramètre 6 est fixé. 
La détermination de d’intervalle de confiance I.(y) nécessite d’inverser le procédé, afin 
d'obtenir un encadrement probabiliste du paramètre lorsque l’estimation y = Y,(x1, x2, …, x) 
est fixée. 


intervalle de confiance (1 — «) d'une espérance mathématique 


+ Données. Un échantillon (x1, x2, .…, x,) de n valeurs observées d’une variable aléatoire 
numérique X d’espérance mathématique 1. 
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+ Calculs 
1. On calcule la moyenne x = - > x; de l’échantillon, puis on calcule la variance non 
n 
i=1 
biaisée s? = L I Y (x; x)? de l'échantillon, et enfin l’écart-type s = Ns2. 
n _ 
i=1 

2. On détermine un écart réduit de Student f, à lire dans la table de la loi de Student, pour 

le nombre de degrés de liberté de ddl = n — 1 et le risque «©. 
3. L’intervalle de confiance est : 


I. = rte + el. 


\n \n 


— En théorie X doit être une v.a. normale, donc aucune précaution si c’est le cas ; 


— Lorsque ce n’est pas le cas, l’intervalle de confiance est robuste et reste utilisable si 7 
est « assez grand », la condition n > 30 est traditionnelle (en fait, on peut descendre en- 
dessous si la loi de X est continue et/ou symétrique). 


+ Conditions et précautions 


intervalle de confiance (1 — a) d'une probabilité 


° Données. Un échantillon de n observations, sur lesquelles A a été observé k fois. 


+ Calculs 


1. On calcule l’estimation de P(A) : p = k ; 
n 


2. On détermine un écart réduit normal w,, à lire dans la table de la loi normale réduite, 
pour la probabilité & de dépassement de l’écart absolu. 


3. L’intervalle de confiance est : 


É- [p-ue MENT jeun). 


+ Conditions et précautions 

Il faut que la distribution ne soit pas « trop » dissymétrique, ce qui se traduit par la double 
condition traditionnelle np > 10, n(1 — p) Z 10 (que l’on peut sans grand risque affaiblir en 
np >5,n(1-p) 25). 

Dans le cas contraire, on peut recourir, soit à des tables spécifiques, soit à des calculs adaptés 
que l’on trouvera dans les ouvrages spécialisés. 


intervalle de confiance (1 — «) d'une variance 


+ Données. Un échantillon (x1, x2, …, x,) de n valeurs observées d’une variable aléatoire 
normale X d’espérance mathématique 11 et de variance o2. 
+ Calculs 
i=n 
1. On calcule la moyenne x = - ” x; de l’échantillon, puis on calcule la variance non 
ei 
I=n 
Y (x;—x)? de l’échantillon. 


i=1 


biaisée 52 = 


n—1 


76 étendue 


2. On détermine deux bornes /; et 2, à lire dans la table de la loi du khi-deux à 7 — 1 degrés de 


liberté : /, est la valeur du 42 pour la probabilité 1 — : , et 2 la valeur pour la probabilité ; : 


3. L'intervalle de confiance est : 


+ Conditions et précautions 


Contrairement au cas d’une espérance ou d’une probabilité, l’intervalle de confiance de la 
variance n’est pas robuste : la formule ci-dessus est valable exclusivement dans le cas où la 
loi de l’échantillon est normale. 


En comparant avec les tests d’hypothèses, on constatera que les intervalles de confiance sont 
fabriqués avec les mêmes formules que celles qui donne les variables de test : il est entière- 
ment équivalent de rejeter une hypothèse H, = « 8 = 65 » ou de constater que 60 n’appartient 
pas à l’intervalle de confiance construit à partir des valeurs observées de l’échantillon. 


étendue (range) 


L’étendue d’une série statistique est l’écart entre ses valeurs extrêmes. C’est une caractéris- 
tique de dispersion médiocre car elle est trop sensible aux valeurs aberrantes (erronées ou 
exceptionnelles). 


On emploie aussi le mot étendue pour désigner la largeur d’une classe. 


évènement (frandom] event, composite event) 


Ensemble de résultats possibles de l’expérimentation ou de l’observation d’un phénomène 
aléatoire, i.e. sous-ensemble de l’ensemble de tous les résultats possibles. 


Lorsqu'on a fixé un évènement À, l’épreuve effectuée donnant pour résultat un évènement 
élémentaire © € Q, ou bien l’évènement A « s’est réalisé », si © € À, ou bien l’évènement A 
«ne s’est pas réalisé », si © £ A. 


Formellement, étant donné l’espace probabilisable (Q, A) « associé » à une épreuve, un 
évènement est une partie À, partie qui doit appartenir à l’ensemble À (dont on rappelle qu’il 
est égal à l’ensemble de toutes les parties de Q dans le cas simple où Q est fini ou dénom- 
brable, mais qu’il est en général plus restreint). 


Parmi les évènements, on trouve l’évènement vide @ « rien du tout ne s’est passé » qui est 
donc impossible (et sa probabilité est 0), les « singletons », constitués par un seul évènement 
élémentaire, et l’évènement plein Q « n’importe quoi s’est passé » qui est donc certain (et sa 
probabilité est 1). 


On peut spécifier un évènement par l’énumération (finie ou infinie) de tous les évènements 
élémentaires qui le constituent, mais le plus souvent on le définira par une propriété ou une 
caractéristique (cf. exemples ci-dessous). 


Exemples  « pair » pour un dé lancé et retombé, « trèfle » pour une carte tirée d’un jeu, 
« rouge » pour une boule tirée d’une urne, « mauvaise réponse » dans un jeu, « gain » dans 
un match, etc. 


évènement élémentaire (simple event) 


Résultat de l’expérimentation ou de l’observation d’un phénomène aléatoire. 
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Le vocabulaire n’est pas entièrement fixé : on parle aussi d’éventualité, parfois d’issue, plus 
rarement d’atome. 

Formellement, étant donné l’espace probabilisable (Q, A4) « associé » à une épreuve, un 
évènement élémentaire est un élément w de l’espace fondamental Q. 


Exemples Le 3 montré par un dé lancé et retombé, le roi de trèfle tiré d’un jeu, une boule 
rouge tirée d’une urne, un individu pris « au hasard » dans une population, une plante 
produite par un croisement, une désintégration détectée par un compteur Geiger, un impact 
de balle dans la cible, la réponse C dans un jeu, le gain d’un match avec le score 4-2, etc. 


expérience aléatoire 
Expression parfois employée pour désigner une épreuve. 


exponentielle (loi) (exponential distribution) 


Loi d’une variable aléatoire continue « temps d’attente » qui intervient notamment dans le 
processus de Poisson et la modélisation de la fiabilité. 


Formulaire 


Un paramètre réel, À € R° ; valeurs sur les réels positifs. 
> Loi de probabilité 


fA F 
À 1 
0 x Ù % 
densité fonction de répartition 
0 si x <0 0 si x <0 
FX) = ne F(x) = , 
he six>0 1e six>0 
> Valeurs caractéristiques 
— espérance : E(X) = ï 
— variance : Var(X) = À 
A2 
; ; 1 
— écart-type : G(X) = À 


> Utilisations 


En théorie, la loi exponentielle est la loi du temps d’attente d’un processus poissonnien de 
taux À : temps d’attente du premier évènement, ou intervalle entre deux évènements succes- 
sifs (dans certaines situations concrètes, on parle de « durée de vie » plutôt que de temps 
d’attente). 


78 exponentielle (loi) 


Dans la pratique, la loi exponentielle est la loi des situations concrètes modélisées par un 
processus poissonnien, comme une succession de pannes à « taux de défaillance » constant, 
ou la désintégration d’un atome radioactif (dans ce cas le processus est un processus « de 
mort » qui s’interrompt après le premier évènement). 
Une erreur à ne pas commettre : la somme de deux variables aléatoires exponentielles indé- 
pendantes n’est jamais une variable aléatoire exponentielle. La loi de la somme de n varia- 
bles aléatoires exponentielles indépendantes de même paramètre À est une loi d’Erlang de 
paramètres n et À (c’est le cas notamment du temps d’attente qui sépare les évènements 
numéros k et k + n dans un processus poissonnien). 
Exemple 1 On considère une variable aléatoire exponentielle X, qui modélise par exemple 
un processus de mort ou de désintégration, de « vie moyenne » t. Quelle est la « période » 
(au sens par exemple des physiciens en radioactivité) de X ? 


1 
1 


on en déduit la valeur du paramètre À : À = L . Par période, il faut comprendre la valeur de T 
T 


Par vie moyenne, il faut toujours comprendre l’espérance mathématique. Comme E(X) = 


déterminée par F(T) = P(X < T) = ; (avec la signification statistique suivante : au bout du 


temps 7, environ la moitié d’un grand nombre de particules semblables se sont désintégrées). 


Comme F(f = 1 -e-À/, on a finalement T = ne = tin2. 


Exemple 2 On considère un ensemble de 4 dispositifs identiques et indépendants, 
susceptibles de tomber en panne selon une loi exponentielle de « vie moyenne » égale à 200 
jours, donc de paramètre À = 0,005 jour-!. Quelle est la probabilité qu’aucun des dispositifs 
ne soit tombé en panne au bout de 90 jours ? 

La probabilité qu’un dispositif tombe en panne après 90 jours est P(X > À = 1—P(x< À) = eh 
pour À = 0,005 et # = 90, soit e-045 = 0,6376. La probabilité que les 4 dispositifs tombent en 
panne après 90 jours est (P(X > 90))* = (e-045)+= 6-18 = 0,165. 
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factorielle (factorial) 
Produit des n premiers entiers : 
n'=1XxX2X3X..xn 
(prononcer : « factorielle ènne ») 
Convention importante : 


= 
Il 
es 


> Signification combinatoire 


n! représente le nombre de permutations d’un ensemble de n objets. 


> Valeur approchée (formule de Stirling) : 


— équivalent : n!-n'e 2Tn 


— approximation à deux termes: n!= ne .f2nn( 1 + =) 
n 


factoriels (moments) 


Voir moments factoriels. 


fiabilité (reliability) 
De façon générale, la théorie de la fiabilité étudie les défaillances (ou pannes) qui peuvent 
affecter un système (ou dispositif) destiné à fonctionner. Le mot défaillance (ou panne) ne 
signifie pas arrêt complet du fonctionnement maïs cessation du « bon » fonctionnement (5.e. 
du fonctionnement conforme au cahier des charges). 

Une partie de la théorie de la fiabilité est consacrée à la modélisation probabiliste des 
défaillances, permettant notamment d’étudier les problèmes de sûreté (probabilités ponc- 
tuelles) et de qualité/rentabilité (espérances mathématiques). 

Le concept précis de fiabilité se définit comme l’aptitude du dispositif étudié à accomplir la 
fonction requise dans des conditions données et de façon ininterrompue durant une période 
de temps donnée (selon les spécifications du « cahier des charges »). 

Enfin, et de façon « technique », la fiabilité désigne la fonction, généralement notée R(?), 
égale à la probabilité qu’un système S (considéré comme mis en service ou observé en bon 
fonctionnement au temps 0), ait fonctionné sans défaillance jusqu’au temps f. Cette fonction 
est directement liée aux éléments les plus fondamentaux du modèle probabiliste de la fiabi- 
lité. 

Si on introduit la variable aléatoire réelle T = « durée de vie de S » = « temps d’attente de la 


(première) défaillance », de fonction de répartition F(f) = F(T < f), et de densité de probabi- 
lité fr), on a F() = 1 — R(?) et f(r) = -R’(#. 
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On peut ensuite définir le taux de défaillance À(r) de S comme la « densité conditionnelle » : 


Ar) = Jim & P(défaillance entre r et r + êt| pas de défaillance sur [O, r]) 
t—0 
: 1 
= lim <P(<T<1+ôIT<1r 
s->0 O1 \ | ) 
d'où los dduitb rebtos 10=- EU): 
R() 


Fisher (Ronald) 


Biologiste et mathématicien britannique (1890-1962). Développa les techniques d’estima- 
tion par la méthode du maximum de vraisemblance, et introduisit la méthode d’analyse de la 
variance. 


Fisher (test de) (Fisher test) 


Nom donné selon les auteurs à plusieurs tests paramétriques : 


1. Le test « d’analyse de variance » d’une régression Y = & + Bx + E, qui compare à zéro la 
pente B de la droite de régression ; ce test est décrit ci-dessous. 


2. Une version « exacte » du test du khi-deux à 4 cases où l’on introduit les probabilités 


! ! ! ! 
multinomiales (a+b)(c +d)'(a+ ce) +4)! (valeurs a, b, c, d dans les 4 cases, n = a + 
a!b\c!d!\n! 


b + c + d). Si les effectifs sont très faibles, il n’existe qu’un petit nombre de configurations 
sous la condition que les sommes des lignes et des colonnes soient constantes, configurations 
dont on calcule explicitement les probabilités (11 semble que dans le monde anglophone, 
Fisher Test désigne le plus souvent ce test). 


3. Le test de Fisher-Snedecor du rapport des variances (voir Fisher-Snedecor (test de)). 


test de Fisher d'analyse de la variance d'une régression linéaire 


+ Données. Un échantillon de n couples de valeurs observées (x1, y1), (x2, y2), .….,(X%n, Yn)) d’un 
couple (X, Y) de variables aléatoires numériques, modélisé par une régression Y = & + fx +E. 


+ Hypothèse testée. Ho = « B = 0 » contre Hi =«BZ0 » 
+ Déroulement technique du test 


1. On calcule avec les formules usuelles les moyennnes observées X et ÿ, puis les estima- 
tions a et b des coefficients de la droite de régression. 
i=n i=n 
2. On calcule les sommes de carrés : Q, = ; ((a+bx;)-y)? et Q,= rs ((a+bx;)- y,). 
i=1 i=1 


3. On calcule la valeur observée de la variable de test : 


Les valeurs de référence de la variable de test sont à lire dans les tables de la loi de Fisher- 
Snedecor, elles dépendent des deux degrés de liberté 1 et n — 2, et du risque ©. 
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+ Conditions et précautions 
— En théorie (X, Y) doit suivre une loi normale à 2 dimensions, donc aucune précaution 
si on présume que c’est le cas ; 
— Lorsque ce n’est pas le cas, le test est robuste et reste applicable si n est « assez grand », 
la condition n > 30 est traditionnelle 


Ce test est parfois dénommé test de la significativité d’une régression, expression calquée sur 
celle de test de significativité d’un coefficient de corrélation. De fait, il s’agit de deux présen- 
tations différentes du même test. La valeur de la variable de test de Fisher est exactement le 


r2 


carré (n—-2)de la variable de test pour le coefficient de corrélation, et la loi « du 


mn 
Er 


Fi, n-2 » est exactement la loi du carré « du S, _2 ». 


Fisher (z-transformation de) (Fisher z-transformation) 
Voir significativité d’un coefficient de corrélation (test de). 


Fisher-Snedecor (loi du F de) (Fisher z distribution) 


Loi d’une variable aléatoire continue utilisée pour le contrôle des tests de comparaison de 
deux variances ainsi que dans le test d’« analyse de la variance » qui permet de comparer 
plusieurs espérances mathématiques. 


Formulaire 


Deux paramètres entiers m, n 2 1 qui représentent des « degrés de liberté » ; valeurs 
sur les réels positifs. 


> Loi de probabilité 


fonction de répartition 


m+n 


2 F(x) = F'roar (x>0) 
0 
> Valeurs caractéristiques 
— espérance : E(X) = 1 5 (sin >3) 
n _ 
2 
— variance : Var(X) = ( 2 ) ur?) (sin>5) 
n—2 m(n —4) 


— écart-type : G(X) = _ ee (sin Z>5) 


Techniquement, la loi du F de Fisher-Snedecor est une loi bêta de type IT (avec 
homothétie de la variable). 
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> Utilisations 


En théorie, la loi de Fisher -Snedecor est la loi du quotient normalisé de deux v.a. khi-deux à 


Le 
So 
en 


n 
particuliers des relations intéressantes : si X suit une loi bêta de type I de paramètres r et s, 


m et n degrés de liberté : F(m, n) = . Cette loi vérifie dans un certain nombre de cas 


alors . L est un F(2r, 25) ; si Y suit une loi bêta de type II de paramètres r et s, alors 2 
rl- r 


est un F(2r, 25). 

Dans la pratique, cette loi est utilisée dans de très nombreux tests d’hypothèses, notamment 
dans le test de comparaison de deux variances (de façon directe, en effectuant le quotient des 
deux estimations débiaisées), et dans le test dit d’ « analyse de la variance », qui permet de 
comparer globalement plusieurs espérances mathématiques entre elles (de façon indirecte, en 
décomposant la variance totale de l’ensemble des observations en deux variances 
« partielles » puis en testant leur quotient). 

On trouvera dans les ouvrages spécialisés les tables étendues du F de Fisher-Snedecor qui 
nécessitent plusieurs pages imprimées serrées. En effet, d’une part elles doivent prendre en 
compte trois paramètres, la probabilité niveau du test et les deux degrés de liberté, d’autre 
part les plages de valeurs relatives aux deux degrés de liberté sont très étendues et il n’y a pas 
de loi limite. 


Fisher-Snedecor (test de) (Fisher-Snedecor test) 
Synonymes : test F (F test), test du rapport des variances (variance ratio test). 

Test paramétrique qui compare les variances observées de deux échantillons statistiques (ce 
test détient le record des appellations différentes : il est aussi appelé test de Snedecor-Fisher 
ou test de Fisher !). 


test bilatéral de comparaison de deux variances 64 et 6 


+ Données 
Deux séries : 
— un échantillon (x1, x, …, x,4) de nx valeurs observées d’une variable aléatoire numé- 
rique X d’espérance mathématique Lx et de variance E ! 
— un échantillon (62 Vpe Yny) de ny valeurs observées d’une variable aléatoire numé- 
rique Ÿ d’espérance mathématique L+ et de variance ES : 


+ Hypothèse testée. Ho = « os = de » contre Hi = « o # oc ». 


+ Déroulement technique du test 
1. On calcule les moyennes observées mx et my des deux échantillons. 
2. On calcule les variances non biaisées ee et ni des deux échantillons. 


3. On permute éventuellement les notations X et Y pour que sè soit la plus grande des 


deux variances observées, et on calcule la valeur observée de la variable de test : 


( x ) 
n 1 
1 


nx= Lny- ss 2 
(2) 
ny- 1 
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Les valeurs de référence de la variable de test sont à lire dans les tables de la loi de Fisher- 
Snedecor, elles dépendent des deux degrés de liberté nx — 1 et ny — 1, et du risque oc. Comme 
les tables de la loi de Fisher-Snedecor sont construites pour leur utilisation directe dans le 
test d’analyse de la variance, elles donnent une probabilité unilatérale de dépassement ; dans 
le cas présent, l’artifice du quotient de la plus grande variance observée par la plus petite doit 


faire lire la valeur critique de la variable de test pour la probabilité de dépassement : : 


+ Conditions et précautions 


En théorie X et Y doivent être des v.a. normales ; lorsque ce n’est pas le cas, le test est 
robuste et reste applicable si les effectifs nx et ny sont « assez grands ». 


fluctuation d'échantilonnage (sampling fluctuation) 


Cette expression, employée surtout dans le contexte des tests d’hypothèse, désigne une varia- 
tion autour de la valeur moyenne (ou « théorique »), lorsque son amplitude est suffisamment 
limitée pour qu’il soit probable qu’elle provienne de la dispersion inhérente à tout échan- 
tillonnage (et non pas d’un décalage de la valeur moyenne). Affirmer qu’un écart est une 
fluctuation d’échantillonnage est bien entendu un pari, qui peut être assorti d’une probabilité 
d’erreur, d’autant plus élevée que l’écart est grand. 


fonction 


Voir caractéristique (fonction), génératrice (fonction), génératrice des moments (fonction), 
répartition (fonction de). 


fondamental (espace) 


Voir espace fondamental. 


formule 


Voit Bayes (formule de), Poincaré (formule de), sommation (formules de), totales (formule 
des probabilités). 


formule de Huygens-Künig 


> Dans le cas de la variance 


En probabilités 
Var(X) = E((X - E(X)}) = E(X?) - (EX). 
En statistique (formule pour n observations individualisées x1, x2, …, x,) 


i=n i=n i=n 2 
s?2 = IE G-x) = HS) [Es] 


= i=1 i=1 


La signification de cette formule est la suivante. Sous la forme E(X2) = (E(X)}? + Var(X), elle 
est l’analogue du théorème de Kônig pour l’inertie en mécanique : E(X?) est la somme de 
deux termes, primo (E(X))? qui dépend de la distance entre l’origine et la valeur centrale de 
la distribution, et secundo Var(X) qui exprime la dispersion intrinsèque de la distribution 
(laquelle ne dépend pas de l’emplacement de l’origine). 
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L'utilisation de cette formule sous la forme Var(X) = E(X2?) - (E(X))? (ou son équivalent 
statistique) est une utilisation légitime si l’on effectue des calculs numériques exacts (ou tout 
au moins avec une approximation suffisante). C’est en revanche une utilisation très dange- 
reuse si l’on effectue des calculs numériques avec une approximation inadaptée. Elle ne doit 
donc être utilisée qu’avec prudence, sans compter (!) que les calculettes lui ont fait perdre 
beaucoup de son intérêt pratique. 


> Dans le cas de la covariance 


Formule en probabilités : 

Cov(X, Y) = E((X - E(X))(Y - E(Y))) = E(XY) - E(X)E(Y). 
Formule en statistique (pour n couples d’observations individualisées (x1, y1), (2, »2), 
Pre y Yn)) : 


Cov = D -HG:-5 = [Ya] Ex 


i=1 i=1 i=1 i=1 


C’est l’extension de la formule de même nom pour la variance. Elle appelle le même 
commentaire. 


formule du binôme 
Voir binômiaux (coefficients). 


fourchette 


Nom souvent donné à l'intervalle de confiance dans la présentation de résultats au public. Il 
est malheureusement trop fréquent que l’on omette de préciser la taille de l’échantillon et le 
seuil de confiance. 

Voir estimation par intervalle. 


fréquence (frequency) 


On se donne une épeuve et un évènement À (éventuellement défini par une valeur d’une 
variable aléatoire ou d’un caractère). Si l’on répète n fois l’épreuve, et si l'évènement A se 


réalise k fois, on définit la fréquence de À comme le quotient L | 
n 


À la base du calcul des probabilités, le concept de probabilité modélise la notion de 
fréquence. Ensuite, la « manière » dont la fréquence (expérimentale) converge vers la proba- 
bilité (théorique) lorsque le nombre de répétitions de l’épreuve tend vers l’infini fait l’objet 
d’un théorème essentiel du calcul des probabilités, la loi des grands nombres, qui sert de 
« pont » vers la statistique mathématique. 

Dans un contexte statistique, on emploie indifféremment fréquence ou fréquence observée 
ou fréquence empirique. 
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Galilée 


Mécanicien, physicien et astronome italien (1564-1642). Il aborda les questions d’erreurs de 
mesure d’un point de vue qui préfigure le calcul des probabilités. Initiateur de la mathémati- 
sation de la physique, il fit des travaux importants en mécanique. Auteur des premières 
observations astronomiques avec une lunette, il révolutionna la conception du cosmos. 


Galton (Francis) 

Généticien et voyageur britannique (1822-1911). Il développa et utilisa les méthodes statis- 
tiques en anthropologie et définit la régression. Inventeur en outre du sac de couchage et du 
terme anticyclone. 


Galton-Watson (processus de) (Galton-Watson process) 
Modèle probabiliste de l’évolution d’une population dont les individus se reproduisent par 
générations distinctes, chaque individu se reproduisant indépendamment des autres, et son 
nombre de descendants suivant une loi qui ne dépend ni de l’individu ni de la génération. 
Un tel modèle est un cas particulier de chaîne de Markov (homogène), elle-même cas parti- 
culier d’un processus stochastique. Il est complètement caractérisé par l’ensemble des proba- 
bilités {p£+} qu’un individu de la population à la génération n ait k descendants à la génération 
n + 1. Historiquement introduit pour l’étude de l’extinction des noms de famille (on parle 
parfois de processus généalogique ou encore de processus en cascade), ce modèle s’ applique 
notamment à des populations de gènes, de bactéries, 

On peut démontrer que presque sûrement 1 un processus de branchement « s’éteint » ou 
«explose », sans possibilité d’oscillations infinies ni de convergence vers une limite. Si X est 
la v.a. nombre de descendants d’un individu et si G(s) = E(esX) est la fonction génératrice de 
X, on peut démontrer le résultat suivant : si G’(1) = E(X) < 1, la probabilité d’extinction est 
égale à 1, si G’(1) > 1, la probabilité d’extinction est égale à la plus petite racine positive de 
l’équation G(s) = s. 

Synonyme de processus de branchement. 


gamma (fonction) (gamma function) 
Fonction définie par une intégrale et qui fournit notamment la valeur des moments (espé- 
rance mathématique, variance, …) de plusieurs lois de probabilité. Elle possède également un 
intérêt puissant dans d’autres domaines des mathématiques. 


> Définition 
T(o) = Ji (a > 0). 
0 


Pour tout ct réel positif, on a la récurrence © T'(@) = T'(o + 1). 
Pour tout entier n positif, on a T(n)=(n-1)! 


86 


gamma (loi) 


> Quelques valeurs numériques 


F(0) = 


T()=1=0! T 


(3) = 


T4) = 


( 
( 
r@=1=1! r{ 
( 


+= r 


2=2! F 


6=3! etc. 


> Utilisation en vue des moments des lois de probabilité 


k+1 
2] the-"/2dr = 2 2 rfi) (attention aux bornes d’intégration) 
0 


fear = T(k+1) = k! 
0 


gamma (loi) 


Loi d’une variable aléatoire continue qui possède de nombreuses applications. 


(gamma distribution) 


Formulaire 


Deux paramètres réels : r € R° (paramètre « de forme»); Àe R' (paramètre 


d’échelle). Valeurs sur les réels positifs. 
> Loi de probabilité 


fA 


À 


FO) = ne Qx)" ! (x > 0) 


P(r) 


densité fonction de répartition 


F(x) = [roar (x>0) 


> Valeurs caractéristiques 


— espérance : E(X) = : 


— variance : Var(X) = 2 


— écart-type : G(X) = 


12 


Jr 


À 
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> Cas particulier important 


Lorsque r est entier, la loi gamma (souvent appelée alors loi d’Erlang), est la loi de 
la somme de r variables aléatoires exponentielles de paramètre À et indépendantes. 


(pour r = 1, la loi gamma est la loi exponentielle elle-même) 
> Loi gamma et loi du khi-deux 


La loi gamma de paramètres ; et ; est la loi du carré d’une v.a. normale centrée 


réduite N{0, 1), et de façon générale, si X suit une loi gamma de paramètres r et 1, 2X 
suit une loi du khi-deux de paramètre 2r. 


> Utilisation 


Outre ses applications pour r entier (cf. loi d’Erlang) — la loi gamma est assez souvent utilisée 
en théorie de la fiabilité, avec le paramètre r supérieur à 1, pour modéliser la durée de vie 
d’un dispositif qui « vieillit », donc avec un « taux de défaillance » non pas constant (cas 
r = 1 : loi exponentielle) mais qui augmente au cours du temps. 


Théorème d’addition. La somme de deux variables aléatoires gamma indépen- 
dantes T'(r,, À) et T'(r,, À) est une variable aléatoire normale gamma T(r, + r;, À) 
(dans le cas où r; et r sont entiers, ce théorème est bien entendu cohérent avec 
l'interprétation de la loi gamma alias loi d’Erlang comme somme de v.a. exponen- 
tielles). 


Gauss (Carl-Friedrich) 


Mathématicien, physicien et astronome allemand (1777-1855). Il introduisit la méthode des 
moindres carrés dans la théorie des erreurs d’observation et fit des travaux importants en 
théorie des nombres, en algèbre, en géométrie, en optique et en théorie du magnétisme. 


Gauss (loi de) 
Voir normale (loi). 


gausso-arithmétique (papier) 
Papier gradué avec une échelle « gaussienne » en abscisse et une échelle arithmétique en 
ordonnée, qui permet de tracer une droite de Henry. 


génératrice (fonction) (generating function) 
Série de puissances que l’on peut associer aux variables aléatoires à valeurs entières positives 
et qui est en relation directe avec les moments factoriels. 

Soit X une variable aléatoire à valeurs entières positives. On appelle fonction génératrice de 
X la fonction G, de la variable réelle s définie par : 


co 


Gx(9 = EX) = Ÿ st P(X = #) 


k=0 
Si la v.a. X admet des moments factoriels de tous les ordres, la fonction GX est développable 
en série entière au voisinage de 1 et l’on a : 


Gx( +0) = 1+E00 +E(X(X - 1)) L + … + EXX-1..(X-E#+1) L Eu 


88 génératrice des moments (fonction) 


ce qui signifie en particulier que, pour tout £2Z 1, on a E(X(X — 1)... (X -k+ 1)) = G{ (1) 
(relation vraie même si tous les moments factoriels n’existent pas dès lors que celui d’ordre 
k existe et la dérivée de même). 


Comportement par addition de v.a. indépendantes : 
Gx + v(s) = Gx(s) G;(s). 


génératrice des moments (fonction) (moment generating function) 


s 


Fonction réelle de variable réelle que l’on peut associer à certaines variables aléatoires 
réelles et qui est en relation directe avec les moments. 
Soit X une variable aléatoire réelle. On appelle fonction génératrice des moments de X la 
fonction g, de la variable réelle définie par 

gx(u) = E(e“*) 
sur l’ensemble des valeurs de # pour lesquelles cette espérance mathématique existe. 
— Expression dans le cas discret : X prend les valeurs x, avec les probabilités p4 : 


ñ = UXE 
ex = > pe 
— Expression dans le cas absolument continu : X possède la densité f(x) : 


ex = [_ e“foodx 


Lorsque la v.a. est bornée, la fonction génératrice des moments existe et est continue pour 
tout u. 


Si la v.a. X admet des moments de tous les ordres, la fonction gx est développable en série 
entière au voisinage de 0 et l’on a: 


u u? u* 
gx(u) = 1 +00 À + EC) À + … + ECO E +. 


ce qui signifie en particulier que, pour tout & 2 1, on a E(X#) = G{P(0). 


Comportement par transformation affine : 
Sax + 0 = PU gx (ar). 
Comportement par addition de v.a. indépendantes : 
8x +00) = 8x0) 8). 


Malgré la relation directe de la fonction génératrice avec les moments, les mathématiciens 
préfèrent travailler avec la fonction caractéristique E(eïX*), qui peut être définie pour toute 
variable aléatoire X, bijectivement, et qui existe pour toute valeur de f. 


géométrique (loi) (geometric distribution) 
Loi d’une variable aléatoire discrète « temps d’attente » du premier succès dans des épreuves 
répétées. 


Formulaire 


Un paramètre réel p (0 < p < 1) qui représente une probabilité 
(notation standard : g = 1 —-p). 


Soit T la variable géométrique de paramètre p ; valeurs prises : 1,2, 3, … 
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> Loi de probabilité 
PCT = &) = pgk-1 (une probabilité commode dans les applications est P(T > k) = gk) 


PA 
[Lu 
d 2 2 + 


probabilités 


> Valeurs caractéristiques 


— espérance : E(T) = 1 
P 


— variance : Var(T) = T 
P 


Jq 


— écart-type : G(T) = 4 
P 


> Utilisation 


La loi géométrique est le temps d’attente (alias le rang) du premier succès dans des épreuves 
répétées, ou dans des tirages « AVEC remise ». 


Attention ! le premier temps possible est T = 1. Dans certaines applications, le premier 

temps possible est T’ = 0 : on a alors P(T’ = k) = pqk et E(T’) = T (ja variance et 
P 

l’écart-type restent les mêmes). 


p représente une probabilité conditionnelle de succès : 

p=PT=kIT2ZK) 
On parle parfois de processus « poissonnien discret » et on qualifie parfois la loi géométrique 
de loi « exponentielle discrète ». 


Exemple 1 Si l’on joue à Pile ou Face (p = q = 5) et si l’on décide de s’arrêter après le 

premier Pile obtenu, l’espérance du temps d’attente est égale à 2. 

Exemple 2 Si on lance 3 dés et que l’on recommence jusqu’à ce que l’on obtienne 3 As 
1 211 211100 

CERCNTE 2) 


516 q = TA la probabilité d’insuccès à la 100-ième fois est P(T > 100) = (Ge 


= 0,99537100 0,629, la probabilité d’insuccès à la 1 O00-ième fois est P(T > 1 000) = 


100 
(2) = 0,995371 000 = 00097. 


Voir Pascal (loi de). 


90 géométrique (généralisation de la loi) : loi « sans nom » 


géométrique (généralisation de la loi) : loi « sans nom » 


Loi d’une variable aléatoire discrète « temps d’attente » du premier succès dans des tirages 
« SANS remise ». 


Formulaire 


Deux paramètres entiers N,K<N 
Les notations standard introduisent p = È (0£<p<1)etq=1-p. 


Soit T la variable aléatoire « sans nom » ; valeurs prises : 1,2, N—-K+1. 


> Loi de probabilité 


K 
P(T = k) = —: 
( ) LE N 
k 
> Valeurs caractéristiques 
l ] 1 + L 
— espérance : E(T) = NEl 1. N 
K+1 p j+ l 
K 


2 
— variance : Var(T) = (4) (N+1) 
K+1 K+2 


£ % N (N 1 ) q 
= t-t : OT) = — UT 1)pq 
écart-[ype ( ) 1 


Gini (indice de concentration de) 


Voir concentration (indice de — de Gini). 


Gosset (William) 


Brasseur et mathématicien britannique (1876-1937). Il étudia, sous le pseudonyme de 
« Student », les techniques statistiques. 


grands nombres (loi des) 


Historiquement, la « loi des grands nombres » désigne le constat fait par les premiers proba- 
bilistes (Pascal, Fermat, Huygens) de la convergence de la fréquence d’un évènement vers sa 
probabilité lorsque le nombre d’épreuves (indépendantes) augmente indéfiniment. Cette 
convergence était alors perçue comme une loi de la nature — d’où le mot loi — et ce n’est que 
plus tard, lorsqu’on a commencé à concevoir le calcul des probabilités comme un modèle 
mathématique des phénomènes aléatoires, que l’on a pris conscience qu’il s’agissait en 
réalité d’un vrai théorème de mathématiques, parfaitement démontrable (Bernoulli, De 
Moivre). L'usage a conservé l’ancienne appellation. 
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grands nombres (loi faible) (weak law of large numbers) 


Théorème. On considère une suite (X,) de variables aléatoires (réelles) indépen- 
dantes et identiquement distribuées, d’espérance mathématique lu. On définit les 
moyennes : 


n 


X,+X,+...+X 
M, = ——— 
n 

Alors, pour tout € > 0, on a : 
P(IX,-u]>E)—0 


nc 


C’est très exactement la définition de la convergence en probabilité de la suite (X,) vers (la 
v.a certaine) li lorsque n tend vers l'infini. 

La première démonstration a été donnée par Bernoulli dans le cas particulier où les X, sont 
des v.a. de Bernoulli (que lui-même n’appelait pas ainsi !), et la somme une v.a. binomiale : 
si la v.a. de Bernoulli est l’indicatrice d’un évènement, il s’agit alors de la convergence de la 
fréquence vers la probabilité de l’évènement. Plusieurs versions de la loi faible des grands 
nombres avec des conditions affaiblies ont été démontrées au XX° siècle (par exemple en ne 
supposant pas les X, indépendantes mais seulement leurs covariances 2 à 2 nulles, ou bien en 
abandonnant l’exigence de loi identique). 


grands nombres (loi forte) (strong law of large numbers) 


Théorème. On considère une suite (X,) de variables aléatoires (réelles) indépendantes 
et identiquement distribuées, d’espérance mathématique 1. On définit les moyennes : 


__ Art tX, 


n 


M, 


Alors la probabilité de l’évènement X, — lL est égale à 1. 
n— © 


C’est très exactement la définition de la convergence presque sûre de la suite (X,) vers (la v.a 
certaine) 1 lorsque n tend vers l’infini. Ce résultat est très technique et est essentiellement 
utilisé par les mathématiciens professionnels. 

Comme pour la loi faible, plusieurs versions de la loi forte des grands nombres avec des 
conditions affaiblies ont été démontrées au XX® siècle. 


grec (alphabet) 
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Gumbel (loi de) (Gumbel distribution) 


Loi d’une variable aléatoire continue utilisée pour la distribution des valeurs extrêmes. 


Formulaire 


Version standardisée X sans paramètre, à valeurs sur R. 


> Loi de probabilité 


fa Fi 
1 
1/e 
0 7x 0 7x 
densité fonction de répartition 
fQ9 = e* exp”) = exp(x 7) FQ) = exp(-e”) 


> Valeurs caractéristiques 


— espérance : E(X) = y= 0,5772... (« constante d’Euler ») 


— variance : Var(X) = 7 


à T° 
— écart-type : G(X) = e 


> Utilisation 


En théorie, la loi de Gumbel est la loi imite, lorsque n tend vers l’infini, du maximum de n 
v.a. identiques et indépendantes, dans le cas où la queue de distribution est de type exponen- 
tiel. 

Soit X une v.a. et F(x) = P(X < x) sa fonction de répartition. On dit que « la queue de distri- 
bution est de type exponentiel » si, lorsque x tend vers l’infini, 1 — F(x) tend vers 0 au moins 
aussi vite qu’une fonction exponentielle e-K (c’est le cas notamment de la loi normale et la 
loi exponentielle). 


La loi de Gumbel utilisée comme approximation de la loi du maximum doit bien sûr être 
ax 
dénormalisée en introduisant des paramètres de position et d’échelle : F(x) = exp b ). 


f(x) = F'(x). Sous cette forme générale, la loi de Gumbel est parfois appelée loi de Fisher- 
Tippett ou loi log-Weibull par les Anglo-Saxons. 


Cas particulier : si les v.a. identiques et indépendantes sont des v.a. normales centrées, leur 
maximum suit approximativement, pour nr grand, une loi de Gumbel de paramètres 


PTT D EL 


Pon 
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Dans la pratique, la loi de Gumbel est notamment utilisée en hydrologie et en climatologie 
pour qualifier les valeurs extrêmes. 


Exemple On considère la variable X = moyenne sur le mois d’août des températures 
journalières maximales, dans une ville donnée. On suppose que X suit approximativement 
une loi normale d’espérance ui et d’écart-type 6 (valeurs typiques dans une région tempérée : 
hu = 26 °C, 6 = 2 *C). Quelle est la valeur que le maximum de X sur 50 années consécutives 
risque de dépasser avec une probabilité 0,5 ? Il est sous-entendu que les valeurs de X sur les 
années qui se succèdent sont indépendantes. 


a—-x 
Si on raisonnait sur une variable normale réduite, il faudrait résoudre F(x) = exp(e b ) =0,5 


avec a = /21In50 =2,80 et b = =. = 0,358. La solution est x = 2,93. La réponse à la 


A/21n50 
question posée est donc pi + 2,93 6 (soit 31,9 °C avec les valeurs typiques données). 


Hardy-Weinberg (loi de) 

Théorème qui exprime les proportions des génotypes dans le modèle probabiliste de trans- 
mission aléatoire des gènes. 

On exprime usuellement la loi de Hardy-Weïinberg en ne considérant que deux allèles, notés 
par exemple À et a (la généralisation ne soulève pas de difficulté conceptuelle). Les géno- 
types sont donc AA, Aa et aa. On représente les distributions de probabilité par des expres- 


sions symboliques : 
— la distribution génotypique est représentée par uAA + 2vAa + waa, où : 


u est la fréquence du génotype AA 
2v est la fréquence du génotype Aa 
w est la fréquence du génotype aa 


(on a bien sûr u+2v+w=1). 
— la distribution génique est représentée par pA + ga, où : 


u = u+v est la fréquence de l’allèle A 
q 


(on a bien sûr p + g = 1). 

Ces expressions symboliques seront indicées par n pour représenter les distributions de la 
n-ième génération. 

La validité de la loi de Hardy-Weïnberg dépend de nombreuses conditions : absence de 
migrations, absence de mutations, existence de générations distinctes et sans croisements 
entre elles (c’est une condition qui peut paraître contraignante, mais on peut montrer qu’elle 
s’évanouit dès que la population est en « équilibre génotypique »), absence de sélection, 
panmixie, et enfin « grand » effectif de la population, qui permet d’assimiler probabilités 
individuelles théoriques et fréquences réelles. 


v+w est la fréquence de l’allèle a 


Théorème (loi de Hardy-Weinberg). Sous les conditions exprimées ci-dessus, 
— d’une part la distribution génique est constante : 
pour tout n:p,A+q,;a=poÂA+doa, 

— d’autre part la distribution génotypique est stable à partir de la première géné- 

ration de descendants : 
pour tout n > 1 : u, AA + 2v, Aa + w, aa = (po À + Go a)?, 

— et les fréquences génotypiques ne sont pas quelconques mais liées par la 

relation : 


=? 
Un Wa = Vi 
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Cette dernière relation, dite « d’équilibre panmictique », permet notamment, en cas d’allèles 
dominant/récessif, de calculer les fréquences génotypiques alors qu’on ne connaît que les 
fréquences phénotypiques. 


hasard (randomness) 


Terme que l’on rencontre, soit dans la langue courante (« le hasard ») pour désigner le deus 
ex machina des phénomènes aléatoires ou pour désigner notre impuissance à prévoir ou à 
contrôler, soit dans des locutions du calcul des probabilités (« tirer au hasard », « choisir au 
hasard »). Dans ce deuxième type d’usage, le sens est, quoiqu’implicite, très précis et renvoie 
à des critères techniques d’« honnêteté » du process, par exemple équiprobabilité ou indé- 
pendance. 


Voir aléatoire, stochastique. 


Henry (droite de) 
Voir droite de Henry. 


histogramme (histogram) 


Un histogramme est une représentation graphique très « parlante » visuellement, que l’on 
peut utiliser aussi bien en calcul des probabilités qu’en statistique. Sa figuration standard, 
aussi bien pour une variable discrète que pour une variable continue, est celle d’un 
diagramme en tuyaux d’orgue, avec des rectangles contigus. 


Soit une distribution statistique réelle, rangée dans un nombre fini de classes. On donne la 
suite croissante des extrémités des classes x, < x, < … < x,, avec pour chaque classe [x;_;, x;[ 
sa fréquence f,. 


On appelle histogramme la représentation graphique imagée qui, pour chaque classe [x;_;, Xi, 
dessine un rectangle d’aire proportionelle à sa fréquence f.. 


On obtient le même résultat visuel en prenant les effectifs au lieu des fréquences (seule 
change la graduation des ordonnées). On peut étendre cette définition au cas probabiliste, en 
remplaçant les fréquences par les probabilités, cela ne soulève aucune difficulté. 


Le point important, et qui différencie l’histogramme d’un diagramme en barres, est la 
proportionnalité de l’aire (1.e. de la surface) des rectangles — et non pas de leur hauteur — aux 
fréquences ou aux effectifs. Bien entendu, le résultat est le même dans le cas où toutes les 
classes sont de largeur égale (ce qui est souhaitable, mais pas toujours possible). Cette 
proportionnalité de l’aire à la fréquence fait de l’histogramme un concept voisin de la coube 
qui représente la densité. 


s 


Lorsqu'un histogramme est dessiné pour une distribution continue (ou discrète à valeurs 
nombreuses regroupées), on marque généralement les extrémités des classes sur l’axe des 
abscisses. Lorsqu'un histogramme est dessiné pour une distribution discrète, il est très 
souhaitable de marquer la valeur ponctuelle de chaque classe au milieu de la base du 
rectangle qui la représente. 


La détermination du nombre de classes approprié d’un histogramme est délicate et il n’existe 
pas de règle universelle (il faut faire des essais...). Un nombre trop faible de classes fait 
perdre de l’information et atténue ou fait disparaître les particularités caractéristiques de la 
distribution. À l'inverse, un nombre trop grand de classes conduit à des graphiques chaoti- 
ques dont les irrégularités ne sont pas significatives. 


— 
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100 % 


0% 
histogramme histogramme cumulé 
On peut construire des histogrammes cumulés, en utilisant pour chaque classe la fréquence 
ou l’effectif cumulé. Le graphique a un aspect « en escalier » et le concept est voisin de la 
coube qui représente la fonction de répartition. 
Voir pyramide des âges. 


homogénéité (test du khi-deux d') 


Voir khi-deux d’homogénéité (test du). 


homoscédasticité (homoscedasticity) 
Propriété relative à un couple (X, Y) de variables aléatoires numériques, qui énonce que la 
variance conditionelle 6(Y|X = x) est constante (ne dépend pas de x). Le contraire s’appelle 
hétérosédasticité. 

Voir Bartlett (test de), droite de régression. 


Huygens (Christiaan) 

Mathématicien, physicien et astronome hollandais (1629-1695). II écrivit De Raticiniis in 
Ludo Aleae qui constitue le premier traité de Calcul des probabilités, définit l’espérance 
mathématique et calcula avec son frère la première table de mortalité. Il fit des travaux 
importants en mécanique, en optique et en géométrie. 


Huygens-Kônig (formule de) 
Voir formule de Huygens-Künig. 


hypergéométrique (loi) (hypergeometric distribution) 
Loi d’une variable aléatoire discrète de « compte » qui intervient dans les tirages « SANS 
remise ». 


Formulaire 


Trois paramètres entiers : N, K < Net n < N, ce troisième paramètre représentant le 
nombre d’épreuves ou de tirages. Les notations standard introduisent p = È (0<p<l1) 
et g=1-p. 

Soit X la variable aléatoire hypergéométrique ; valeurs prises : 0, 1, …, n. La valeur 


prise k doit satisfaire les contraintes k < N et n — k £ N — K. (évidentes d’après 
l'interprétation, cf. ci-dessous). 


> Loi de probabilité He 
(6 DT PA 
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> Valeurs caractéristiques 
— espérance : E(X) = np 


à N-n 
— variance : Var(X) = ———— 
Ce 


— écart-type : G(X) = /npq + 


> Utilisations 


La loi hypergéométrique est la loi du compte d’un caractère dans des tirages « SANS 
remise » : il y a initialement N objets dont K possèdent « le » caractère : on en tire n, et le 
caractère est observé k fois. 

Dans de très nombreuses situations réelles (sondages, enquêtes, .), la vraie loi est la loi 
hypergéométrique. Mais, sauf si les valeurs de N et K sont faibles, on la remplace systémati- 
quement par la loi binomiale pour utiliser des formules plus simples. L’espérance est la 
même, la variance et l’écart-type sont très légèrement augmentés. Ainsi, pour un échantillon 
par exemple de 900 personnes sur 40 millions d’électeurs, il faudrait corriger la variance de 
N=n.… 39999 106 0.999908 ! 

N-1 39999 999 
Exemple On considère 20 objets dont 10 présentent un caractère donné. On effectue 8 


tirages, et on appelle X le nombre d’objets possédant le caractère. Comparer les probabilités 
P.(X = 4) pour des tirages AVEC remise et P,(X = 4) pour des tirages SANS remise. 


la loi binomiale par le facteur 


Le premier cas est celui de la loi binomiale avec p = q = 0,5 : P,(X = 4) = () x 0,54 x 0,54 


= 70 X0,58 = 0,2734. Le deuxième cas est celui de la loi hypergéométrique avec N = 20, 
4) 

K=10,n=8,k=5:P;(X=4)= (4 À 47 _ 210x210 

d (5) 125 990 


8 
on pouvait s’y attendre, la loi hypergéométrique favorise les situations moyennes. 


= 0,3501. On notera que, comme 


— 


i.i.d. 


Abréviation parfois employée pour signifier que des variables aléatoires sont identiques et 
identiquement distribuées (situation des épreuves répétées). 


impossible (événement) (impossible event) 


Evènement vide @ = « rien du tout ne s’est passé » d’un espace probabilisé (Q, À, P), de 
probabilité égale à O (c’est bien sûr un cas limite, mais il est nécessaire de l’inclure dans 
l’ensemble A de tous les évènements envisageables). 


incompatibles (événements) ([mutually] exclusive events) 


Se dit d'évènements À, B qui ne peuvent pas se réaliser simultanément. On a alors P(A et B) 
= 0. Le qualificatif ensembliste synonyme est disjoints. 

Étant donné un nombre supérieur à 2 d'évènements : A,, A;, …, À,, on prendra garde qu’il 
existe deux manières de généraliser cette propriété : soit en énonçant que les évènements 
sont « globalement » incompatibles : A; et A, et … et A, ne peuvent pas se réaliser simulta- 
nément, ce qui ne présente en général guère d’intérêt, soit en énonçant que les évènements 
sont « 2 à 2 » incompatibles : ViVj i#j— A; et A; ne peuvent pas se réaliser simultané- 
ment, propriété souvent très utile. 


indépendance de deux épreuves 


On dit que deux épreuves sont indépendantes si, dans l” « épreuve produit » qui les repré- 
sente simultanément, tout évènement « qui ne dépend que de la première épreuve » est indé- 
pendant avec tout évènement « qui ne dépend que de la deuxième ». 


Cette notion est en pratique très claire dans les cas simples, mais on peut vouloir la forma- 
liser. Il faut pour cela construire le produit des espaces probabilisés qui représentent les deux 
épreuves. Dans la pratique, l'indépendance de deux épreuves sera rarement une propriété qui 
doit être vérifiée, et le plus souvent un décret que l’on impose a priori. 


indépendance de deux évènements (stochastic independence) 
On dit que deux évènements A, B sont indépendants si : 

P(AB) = P(A) P(B) 
Nota : si P(A) 4 0, P(AB) = P(A) P(B) équivaut à P(B[A) = P(B). 
On peut généraliser à une suite (A,,) finie ou infinie d’évènements : les A, sont mutuellement 
indépendants si, pour tout sous-ensemble fini d'indices (5, is, …, iy) on a: 


PCA Aire A J=R(AS PCA; RCA; ) 


(cette condition est beaucoup plus forte qu’une simple indépendance deux à deux). 
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L'indépendance « stochastique » (terme consacré qui veut dire « en probabilité ») de deux 
évènements peut être une propriété que l’on vérifie, mais le plus souvent ce sera une 
propriété que l’on décrète pour modéliser une indépendance « physique ». 


Propriété 


S1 À et B sont indépendants, A et B, À et B, À et B sont également indépendants 


indépendance de deux variables (independence of 
aléatoires random variables) 


Soient deux variables aléatoires X et Y définies sur un même espace probabilisé (Q, À, P), à 
valeurs respectivement dans (Ex, 4,) et (Es, 4). On dit qu’elles sont indépendantes si on a, 
pour tout évènement À € A, et tout évènement B € 4, : 

P(X e AetY e B)=P(XE A) P(Y e B) 
On peut ici aussi généraliser à une suite finie ou infinie de variables aléatoires (définies sur le 
même espace probabilisé). 
Dans la pratique, l’indépendance des varables aléatoires sera rarement une propriété qui doit 
être vérifiée, et le plus souvent un décret que l’on impose a priori (épreuves répétées notam- 
ment). 


indépendance (test du khi-deux d') 
Voir khi-deux d'indépendance (test du). 


indicateur 


Ce mot, qui possède de nombreux synonymes, notamment [valeur] caractéristique et résumé 
numérique, parfois paramètre (mais ce dernier mot n’est pas très approprié dans la situation 
présente), désigne un certain nombre de valeurs numériques qui résument et synthétisent une 
distribution, en probabilités ou en statistique. Ils sont utilisés aussi bien pour « se faire une 
idée » de la distribution que pour figurer dans des formules et des énoncés de théorèmes. Les 
conditions de Yule proposent des critères généraux de qualité globale pour les indicateurs. 
Les indicateurs se répartissent en trois grandes catégories. 

Les indicateurs de position (ou de tendance centrale ou encore de localisation) caractérisent 
généralement le « centre » ou le « milieu » d’une distribution. Ils sont nombreux et présen- 
tent des qualités et des usages très variés. On peut citer le milieu (trop sommaire), l’espé- 
rance mathématique (appelée moyenne en statistique), la médiane, le mode (mais il peut y en 
avoir plusieurs...), la médiale. Certains indicateurs de position ne caractérisent pas le centre 
mais des points remarquables, ainsi les quartiles et autres quantiles. 

Les indicateurs (ou caractéristiques) de dispersion caractérisent la manière dont la distribu- 
tion s’écarte de sa valeur centrale. Les principaux sont liés mathématiquement à un indica- 
teur de position, ainsi la variance et l’écart-type complètent l’espérance (ou moyenne), 
l’écart inter-quartiles complète la médiane. 

La troisème catégorie est celle des indicateurs de forme, qui caractérisent notamment 
l’asymétrie et l’aplatissement. 

À cette liste il faut ajouter les moments d’une loi de probabilité, qui jouent un rôle théorique 
important, ainsi que les divers indices adaptés à tel ou tel usage particulier et que l’on peut 
calculer à partir d’une distribution. 

Enfin, il existe des indicateurs adaptés à des distributions « à plusieurs dimensions », notam- 
ment la covariance et le coefficient de corrélation. 


100 indicatrice 


indicatrice 


Indicatrice d’un événement : variable aléatoire qui prend la valeur 1 ou 0 selon que l’événe- 
ment se réalise ou ne se réalise pas (cf. Bernoulli (loi de)). Indicatrice d’un intervalle : fonc- 
tion I(x) qui vaut 1 ou O0 selon que x appartient ou non à l’intervalle. 


indice (index) 
Premier sens : dans une situation probabiliste ou statistique, nombre réel sans dimension, 
indicateur d’une distribution, ou de la « liaison » entre deux distributions (dans ce sens, on 
emploie plutôt le terme coefficient). 

Deuxième sens : dans le domaine des sciences économiques et sociales, nombre réel positif 
sans dimension, indicateur de la variation (notamment dans le temps) d’une ou plusieurs 
variables. Il existe deux types d’indices : les indices élémentaires, obtenus par quotient de 
deux valeurs de la même variable en deux situations (temps, lieu, ...) différentes, et les 
indices synthétiques, qui se rapportent à un ensemble complexe de variables, le plus souvent 
non homogènes, pour donner un résumé global de l’évolution. Les indices s’expriment géné- 
ralement en pourcentages et sont donnés avec une situation de référence (« base 100 en . »). 
Les indices synthétiques (indice de Laspeyres, indice de Paasche, indice de Fisher) sont cons- 
truits dans le respect de critères convenables mais aucun ne peut les satisfaire tous. 


indice de concentration [de Gini] 


Voir concentration (indice de — de Gini). 


individu 

« Objet » ou « unité » statistique, pris dans une population donnée. Il ne faut pas prendre 
individu et population au sens biologique de ces mots ; il s’agit ici de tout élément sur lequel 
on peut faire une étude statistique : valeur numérique, mot, document, bien matériel, fait ou 
phénomène, … mais incluant bien sûr individu biologique, notamment être humain. 


Cette notion est le concept statistique correspondant au concept probabiliste d’évènement 
élémentaire (élément d’un espace fondamental). 


inégalité de Bienaymé-Tchebychev 
Voir Bienaymé-Tchebychev (inégalité de). 


inférentielle (statistique) (inferential statistics) 


Partie de la statistique qui analyse, dans un cadre explicitement probabiliste, des données 
préalablement recueillies de façon à en déduire les paramètres des lois de probabilité et à 
tester la validité du modèle probabiliste ainsi reconstitué. 


Voir statistique. 


information (quantité d') (self-information) 
Soit un espace probabilisé (Q, À, P) et soit un évènement À € À. On appelle quantité 
d’information apportée par la réalisation de A la quantité : 

I(A) = - log P(A) 
La base du logarithme importe peu en théorie mais la pratique utilise aujourd’hui, sauf 
exception, le logarithme à base 2 : l’unité correspondante de quantité d’information est le bit, 
adaptée aux codes binaires. 
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Propriété 


Si À, B sont deux évènements indépendants, on a : 
I(AB) = I(A) +1I(B). 


En fait, cette propriété est une contrainte plus qu’une conséquence : elle est « naturelle » et 
nécessaire si l’on veut que la quantité d’information soit une « bonne » mesure de l’informa- 
tion, et le respect de cette contrainte oblige à définir la quantité d’information par le loga- 
rithme de la probabilité. 


Exemple théorique Soit un espace constitué par 2" évènements élémentaires équipro- 


bables (donc de probabilité ; ). Si A est l’un d’entre eux, I(A) = — log:[ +) = n bits. 


La théorie de l'information (dite parfois de Shannon-Weaver) utilise la notion de quantité 
d’information pour définir l’entropie, puis élaborer une théorie destinée à modéliser l’effica- 
cité de la représentation et du stockage de l’information (théorie du codage, théorèmes de 
Kraft et de Macmillan), et l’efficacité de la transmission de l’information par un « canal » 
éventuellement « bruité » (théorèmes de Shannon). 


interquartiles (écart) 


Voir écart interquartiles. 


intersection ([logical] conjunction) 
Synonyme de conjonction logique. 


Dans la formalisation ensembliste des espaces probabilisables, les évènements sont des 
parties de l’espace fondamental Q. Si l’on considère deux évènements À, B, leur intersection 
est un évènement dont la réalisation correspond à la conjonction logique « A et B »: 


He AnNB&S(we Aetwe B) 


Cela se généralise sans difficulté à un nombre supérieur d'évènements. Outre les deux nota- 
tions ensembliste et logique, parfaitement synonymes : ANB,AetB , on emploie souvent 
la notation AB qui est très commode. 


Propriété 
Si À et B sont indépendants : P(A © B) = P(A) P(B). 
De façon générale : P(A NB) = P(A) P(B[A) = P(B) P(AJB). 


Exemple Dans un travail de psychologie appliquée, on effectue l’étude croisée de deux 
« caractères » : la réaction face à un certain signal et la réponse à un certain test. Soient SI, 
S2, S3 et S4 les réactions au signal, et T1, T2 et T3 les réponses au test. On considère les 
évènements : 

« un sujet pris au hasard montre la réaction S3 au signal » 
et : « un sujet pris au hasard donne la réponse T2 au test ». 
L’intersection de ces deux évènements est l’évènement « un sujet pris au hasard à la fois 
montre la réaction S3 au signal et donne la réponse T2 au test ». 


intervalle de confiance (confidence interval) 


Voir estimation par intervalle. 
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intervalle (estimation par) 


Voir estimation par intervalle. 


intervalle de prévision, de prédiction 

Dans un modèle linéaire ou une régression Y = & + BX + E, intervalle qui encadre avec un 
certain seuil de confiance les valeurs possibles de Y pour une valeur « ultérieure » de X. Sa 
détermination associe une estimation et une prévision sfricto sensu. 

Voir prédiction. 


intervalle (probabilités d') 

Lorsqu'une variable aléatoire réelle X est (absolument) 
continue, toutes les probabilités ponctuelles P(X = x) sont 4» . 
nulles et les probabilités « de base » sont les probabilités 
d'intervalle P(a < X < b). Elles peuvent être calculées, 
soit à partir de la densité f : 


P(a <X <b)= ['roar, 


MAL 


oINNNS 


soit à partir de la fonction de répartition EF : 0|a 
P(a <X<b)= F(b)-F(a). 


issue (outcome) 
Terme parfois employé pour désigner un évènement élémentaire (résultat d’une épreuve). 


joint, e (joint) 
Synonyme de conjoint, e. 

Dans une situation probabiliste ou statistique « bidimensionnelle » ou « multidimension- 
nelle », qualifie ce qui concerne globalement les variables : probabilités jointes, densité 
jointe, loi jointe, effectifs joints, fréquences jointes, espérance ou moyenne jointe, variance 
jointe, écart-type joint. 

Voir couple de variables aléatoires. 
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Kendall (coefficient de corrélation des rangs de Kendall) 


Voir corrélation des rangs (coefficient de — de Kendall). 


khi-deux de Pearson (loi du) 


Formulaire 


(chi-squared distribution) 
Loi d’une variable aléatoire continue positive utilisée pour le contrôle des tests du khi-deux. 


Version standardisée à un paramètre entier n > 1 qui représente le nombre de « degrés 
de liberté ». Valeurs sur les réels positifs. 


> Loi de probabilité 
fA 


n>3 © 
cas généra . 
0 x 
densité fonction de répartition 
L LIEN, Eee x 
f(x) = - x? e2?(x>0) F(x) = OL (x20) 
»r(s | 
2 


> Valeurs caractéristiques 
— espérance : E(X) =n 
— variance : Var(X) = 2n 
— écart-type : G(X) = N2n 


Techniquement, la v.a. khi-deux à n degrés de liberté est le double d’une v.a. gamma 
de paramètres r = : et À= 1. 


> Utilisations 


En théorie, la v.a. khi-deux X à n degrés de liberté (souvent notée y?) peut être définie comme 


i=n 


la somme des carrés de n v.a. normales U}; centrées réduites indépendantes : X = >. U? (à 


i=1 
noter que l’on a à l’évidence le même « théorème d’addition » que pour les v.a. gamma). 
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Cette loi intervient dans l’estimation de la variance d’un échantillon : si X;, X;, …, X, sont n v.a. 
1 i=n 
normales identiques (d’espérance lt et d’écart-type 6) indépendantes, si M, = = 7. X; est la 


i= 
1 I=n 
variable aléatoire moyenne, et si S2 = cn] > (X;-M,)? est la variable aléatoire estimateur 
n _ 
i= 


(n-1)S2 


« débiaisé » de la variance, alors suit une loi du khi-deux à n — 1 degrés de liberté. 


G 
Enfin, on peut démontrer que, si (N,(n), N,(n), …, N,(n)) est un « vecteur multinomial » de 


L : è PR ON; -np;) 
paramètres n et (p;;, P2, …, p4), alors la loi de la variable aléatoire >, —————— converge 
np; 
i=l É 
vers une loi du khi-deux à k — 1 degrés de liberté. Dans la pratique, cette propriété fonde le 
test du khi-deux qui permet notamment de comparer une distribution multinomiale observée 
à une distribution « théorique ». 


khi-deux d'ajustement (test du) (chi-squared test of goodness of fit) 


Test qui compare globalement, pour une variable discrète ou discrétisée, la distribution 
« observée» d’un échantillon statistique à une distribution « théorique » fixée. La variable est 
quelconque, quantitative ou qualitative, mais le nombre de classes doit être fini (ou rendu fini 
par regroupements). 

Les cas les plus classiques sont : 

— 2 classes de probabilités données p etqg=1-p; 

— k classes équiprobables ; 

— kclasses dont les probabilités sont données a priori ; 

— n+1 classes associées à une variable binomiale de paramètres n et p ; 


— n+l classes associées à une variable à valeurs entières (ou codée par des valeurs 
entières), la (n + 1)-ième classe regroupant les valeurs 2 n. 


test du khi-deux standard sans paramètres estimés 


* Notations. k classes A;, À;, …, A; : 
— probabilités réelles des k classes : p} = P(A:), …, p£ = P(Ay), 
— probabilités « théoriques » des k classes : p;1, …, pr. 


+ Données. n observations, avec les effectifs « observés » : n, dans la classe A,, …., n, dans la 
classe Az. 


+ Hypothèse testée. H, = « pi = p,et… et p{ =p,>» contre H, = « il existe au moins deux 
probabilités p} et p; différentes ». 
+ Déroulement technique du test 

1. On calcule les effectifs « théoriques » np;. 

2. On calcule la valeur observée de la variable de test : 


2 = : (n,-np;) | 


j=1 np; 
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Les valeurs de référence de la variable de test sont à lire dans les tables de la loi du khi-deux, 
elles dépendent du nombre de degrés de liberté de l’échantillon : ddl = k-— 1, et du risque ok. 


+ Conditions et précautions 


La loi du khi-deux est la loi limite pour la variable de test, ce qui induit une condition de taille : 
il est classique de demander que chaque effectif théorique np; (insistons : np; non pas n;) 
soit > 5, exigence que l’on peut descendre à 2, mais pour une seule classe (cas fréquent de la 
dernière classe d’une distribution décroissante). 


Tantôt les probabilités « théoriques » des classes sont explicitement données, tantôt elles 
sont à déduire de l’énoncé (par exemple classes équiprobables). 


Remarque : On peut utiliser le test du khi-deux avec deux classes, ce qui revient à 
comparer un pourcentage (une probabilité) à un pourcentage (une probabilité) théo- 
rique. On pourrait faire le même contrôle avec un test (de Student) de comparaison de 
pourcentages : les valeurs de la variable de test du khi-deux, aussi bien celle observée 
que celle de la table, sont exactement les carrés des valeurs de la variable du test de 
Student, et les conclusions sont identiques ! 


test du khi-deux avec h paramètres estimés 


La procédure de test et les calculs sont identiques au cas standard à une seule exception près : 
le nombre de degrés de liberté est ddd=k-h-—1. 


Les deux cas les plus fréquents de paramètres estimés sont pour le paramètre p d’une loi 
binomiale ou pour le paramètre 11 d’une loi de Poisson, qui se déduisent l’un comme l’autre 
du tableau par classes et effectifs (dans ces cas, h = 1 et ddl = n-2). 

Les tests du khi-deux sont habituellement rangés parmi les tests non paramétriques, c’est 
clair si l’on considère le test du khi-deux d’indépendance (ou d’homogénéité), c’est moins 
évident si l’on considère le test du khi-deux d’ajustement… 


khi-deux d'homogénéité (test du), (chi-squared test of 
khi-deux d'indépendance (test du) homogeneity, chi-squared 
test of independance) 


Test qui fonctionne sur un tableau d’effectifs à double entrée et qui contrôle, soit l’homogé- 
néité de sous-populations par rapport à une variable discrète (ou discrétisée), soit l’indépen- 
dance de deux variables discrètes (ou discrétisées). La ou les variables sont quelconques, 
quantitatives ou qualitatives, mais le nombre de classes doit être fini (ou rendu fini par 
regroupements). 

Il n’y a pas d’autre différence entre le test d’homogénéité et le test d'indépendance que la 
présentation de la situation concrète sur laquelle porte le test. 

Dans la présentation test d’indépendance, on considère deux variables définies sur une même 
population, on dispose d’un tableau croisé d’effectifs (ou tableau de contingence), et on teste 
l’indépendance des variables. 

Dans la présentation test d’homogénéité, on considère d’une part une répartition de la popu- 
lation en sous-populations, d'autre part une variable définie sur la population globale, on 
dispose donc comme précédemment d’un tableau croisé d’effectifs, et on teste l’homogé- 
néité des sous-populations par rapport à la seule variable explicite. Mais répartir une popula- 
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tion en sous-populations revient à définir une variable qualitative, dont les modalités sont 
précisément l’appartenance aux sous-populations. On voit donc qu’il y avait une variable 
cachée, et tester l’homogénéité n’est rien d’autre que tester l’indépendance des deux varia- 
bles, la cachée et l’explicite. 


La description ci-dessous du déroulement du test se fera sous l’unique présentation test 
d’indépendance. 


test du khi-deux d'indépendance 


* Notations 

— nlclasses A,, À;,…., AÀ,, pour la première variable X (nl comme nombre de lignes) ; 

— nc classes B,, B;,…, À, pour la deuxième variable Y (nc comme nombre de colonnes) ; 
— probabilités « théoriques » des nc X nl classes A;B;: p;;. 


+ Données. Effectif total n, distribué en nc x nl effectifs « observés » : n;; dans la classe A;B;. 
* Hypothèse testée. H, = « X et Y sont indépendantes » contre H, alternative. 


+ Déroulement technique du test 
1. On « borde » le tableau des effectifs pour effectuer les sommes marginales : L; pour la 
ligne n° i, C; pour la colonne n° j. La disposition pratique des préparatifs du calcul se 
fait comme indiqué dans le tableau modèle ci-dessous : 


colonne 
>> 


ligne A; . ï jee L; 


2. On calcule les effectifs « théoriques » np;; par la formule np;; = . 
n 


3. On calcule la valeur observée de la variable de test : 
nl nc 
= Y ”, Gi;-np;) np)? 
i=l j=1 Pi 
Les valeurs de référence de la variable de test sont à lire dans les tables de la loi du khi-deux, 
elles dépendent du nombre de degrés de liberté de l’échantillon : ddl = (n/-— 1)(nc — 1), et du 
risque 0. 


+ Conditions et précautions 


La loi du khi-deux est la loi limite pour la variable de test, ce qui induit une condition de 
taille : il est classique de demander que chaque effectif théorique np;; (insistons : np; non 
pas n;;) soit 2 5, exigence que l’on peut descendre à 2, mais pour une seule classe. 


On peut utiliser la formule de calcul des effectifs « théoriques » mécaniquement, mais on 
peut aussi vouloir comprendre « d’où elle sort ». Si p;; est la probabilité de la classe A;B; 
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« sous l’hypothèse H, », l'effectif théorique de cette classe est np; Le problème revient donc 
à déterminer ces probabilités p;;. Mais l'hypothèse H, énonce que les 2 variables sont indé- 
pendantes, donc p;; = p;q; où p; est la probabilité « marginale » de la classe A,, et g; la proba- 
bilité « marginale » de la classe B;. Il faut alors estimer ces probabilités marginales. Cela se 
fait naturellement en totalisant les effectifs par lignes et par colonnes : si L; est la somme des 


; : . : L; à : 
effectifs observés de la ligne n° i, on peut estimer p; par — ; de même, si C ‘est la somme des 
n 
effectifs observés de la colonne n° j, on peut estimer q; par —{. Finalement, on prend pour 
L n 


ns Li C; L;C 
valeur de np;;= np;q; ; Son estimation est n X — x — = ——1, 
nn n 


Il n’y à pas de notations à la fois évidentes, simples et cohérentes... On trouvera dans 
certains manuels les notations n,. et n.; pour désigner les sommes marginales des effectifs 
par lignes et par colonnes (voire n.. pour désigner l’effectif total), c’est parfaitement cohérent 
mais un tout petit peu lourd. On trouvera aussi ñ; pour désigner l’effectif théorique (que 
nous avons appelé np;), cela conviendra à ceux qui sont familiers avec la notation 
« chapeau » des mathématiciens pour désigner les estimations. Enfin, on trouvera parfois o;; 
et c;; (ou e;) pour désigner respectivement les effectifs observés et théoriques (c comme 
calculé ou e comme estimated), c’est particulièrement simple, mais cela gêne si l’on veut 


L.C. 
expliquer et justifier la règle c;;= _. . 


Remarque : On peut utiliser le test du khi-deux d’indépendance avec quatre classes 
(2 X 2), ce qui revient à comparer deux pourcentages (deux probabilités) entre eux. On 
pourrait faire le même contrôle avec un test (de Student) de comparaison de pourcen- 
tages : les valeurs de la variable de test du khi-deux, aussi bien celle observée que celle 
de la table, sont exactement les carrés des valeurs de la variable du test de Student, et 
les conclusions sont identiques ! On notera bien que pour ce test 2 X 2, on a ddl = 1. 


Khintchine (Alexandre) 


Mathématicien russe (1894-1989). I obtint des résultats profonds sur les théorèmes limites 
du calcul des probabilités. 


Kolmogorov (Andreï) 


Mathématicien russe (1903-1987). Il formula l’axiomatique moderne du calcul des probabi- 
lités et fit également des travaux en topologie et en théorie des systèmes dynamiques. 


Kolmogorov (axiomatique de) 


Voir axiomatique de Kolmogorov. 


Kolmogorov (test [d'ajustement] de) (Kolmogorov test) 


Test non paramétrique qui compare la distribution d’un échantillon statistique à une distribu- 
tion fixée (par exemple : loi exponentielle de paramètre À spécifié, ou loi normale d’espé- 
rance et de variance spécifiées). Les distributions (lois) sont représentées par leurs fonctions 
de répartition, utilisées pour l’exécution du test. 
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test bilatéral de comparaison 
d'une distribution de fonction de répartition F(x) 
à une distribution de fonction de répartition fixée F(x) 


+ Données. Un échantillon (x, x, …, x,) de n valeurs observées d’une variable aléatoire 
numérique X de fonction de répartition F(x). 


+ Hypothèse testée. H,=«F=EF,» contre H;=«F2Z2F,» 
+ Déroulement technique du test 


la. On ordonne les valeurs observées de l’échantillon — on suppose ce rangement 
effectué, soit, en gardant les notations initiales : 
X SH <<. Lx, 


1b. Puis on pose : 


FG) = L,FG)= 2, Fx)= 21, 
n n n 


ce qui définit les « marches » de la fonction de répartition observée, qui est une fonc- 
tion « en escalier ». 


2. On pose alors : 


K+ 


Sup(F(x) -F,(x)) = max (£ - EF; ) 


x 1<j<n 


F 
Il 


—(inf(F(x) -F(2))) 


sup(Fo() F0) = max (Fo(x) 12) 


* 1<j<n 
La valeur observée de la variable de test est : 


K = sup}F(x)-Fç(x)| = max (K*, K-) 


Les valeurs de référence de la variable de test sont à lire dans les tables de la loi « du À » 
de Kolmogorov-Smirnov, elles dépendent de la taille n de l’échantillon et du risque ot. 


Valeurs limites : si D, est la variable aléatoire tabulée, telle que ./n D, converge en loi vers 
la loi « du A » de Kolmogorov-Smirnov lorsque n — + , et si d,(c) est la valeur critique 
1,358 L629 


n 


de D, définie par P(D, > d,(@)) = ©, on a D,(0,05) - et D',(0,01) - 

+ Conditions et précautions 

— Il n’y a pas d’autre précaution que de fixer complètement la loi de référence (donc en 
particulier d’éviter toute estimation de paramètres) ; 


— lorsqu'il faut estimer des paramètres, la loi de référence de la variable de test n’est pas 
connue mais 1l existe des tables obtenues par simulation... Valeurs limites (Biometrika 


Tables) : si D', est la variable aléatoire corrigée lorsque l’on fait fonctionner le test de 
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Kolmogorov après estimation de l'espérance et de l’écart-type d’une loi normale, et si 


d', (ot) est la valeur critique de D', définie comme ci-dessus, on a D',(0,05) - 


D',(0.01) - a 


n 


0,895 
== € 


n 


t 


On pourrait faire fonctionner le test en unilatéral en considérant seulement K* ou K-, mais il 
ne semble pas y avoir d’application pratique. 


Kolmogorov-Smirnov (loi du 


A de) 


(Kolmogorov-Smirnov 
A distribution) 


Loi d’une variable aléatoire continue utilisée pour le contrôle des tests de Kolmogorov et de 
Smirnov qui permettent de comparer deux fonctions de répartition. 


Version standardisée X sans paramètre, à valeurs réelles positives. 


> Loi de probabilité 
fa 


xŸ 


densité 


> Valeurs caractéristiques 
— espérance : E(X) = 0,8687 
— variance : Var(X) = 0,06777 
— écart-type : G(X) = 0,2603 


Formulaire 


1/2 


Oo 


F(x) = 1 25 1)fexp(—242x2) 


»> Autres valeurs caractéristiques 


mode : M; = 0,7354 


médiane : M = 0,8276 


0,828 x 


fonction de répartition 


k=1 


> Utilisation 


Si D, est le sup (sur x) de la valeur absolue de la différence entre deux fonctions de réparti- 
tion, F(x) « exacte » et F,(x) empirique (observée), la loi de la variable aléatoire \nD, 
converge vers la loi du À de Kolmogorov-Smirnov lorsque n tend vers l'infini. 


Cette loi intervient à ce titre dans les tests de Kolmogorov et de Smirnov. 
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[Kolmogorov-]Smirnov (test de) ([(Kolmogorov-]Smirnov test) 


Test non paramétrique qui compare entre elles les distributions de deux échantillons statisti- 
ques. Les distributions (lois) sont représentées par leurs fonctions de répartition, utilisées 
pour l’exécution du test. 


test bilatéral de comparaison de deux distributions 
de fonctions de répartition F,(x) et F,(x) 
+ Données. Deux séries : 
— un échantillon (x;, x, …, Xnx) de ñn}x valeurs observées d’une variable aléatoire numé- 
rique X de fonction de répartition F,(2) ; 
— un échantillon (y;, y», …., Yny) de n, valeurs observées d’une variable aléatoire numé- 
rique Ÿ de fonction de répartition F,(z). 
+ Hypothèse testée. H,=«F, =F, » contre H,=«F, ZE,» 
+ Déroulement technique du test 
la. On ordonne toutes les valeurs observées des deux échantillons : 
Zi] £Z << Zny+ny L 
1b. Puis on construit les deux fonctions de répartition observées, qui sont des fonctions 
« en escalier », avec des « marches » pour certaines des z;. 


2. On calcule alors K = sup}F,(z)-F,(z)| en s’inpirant de la méthode exposée dans le 


cas du test de Kolmogorov simple de comparaison d’une fonction de répartition à une 
fonction de répartition fixée (avec notamment le « dédoublement » des valeurs aux 
bords des marches — les formules ne sont pas données ici). 

Les valeurs de référence de la variable de test sont à lire dans les tables de la loi 
« du À » de Kolmogorov-Smirnov, elles dépendent de la taille n de l’échantillon et du 
risque ©. La lecture de la valeur critique n’est pas directe sauf si l’on se contente d’assi- 
miler la loi à la loi limite : dans le cas de H, = «F = F, » avec un échantillon de 


n valeurs, la variable ,/n sup |[F(x) — F;(x)| converge en loi vers le « A », et dans le cas 


de Hj=«F,=E, » avec deux échantillons de n, et ny valeurs, la variable ue 
nx+n 
x Ty 


sup |F,(z) — F;(2)| converge en loi vers le « A ». 


Remarque : Le calcul de K = sup |F,(z) — F;(2)|, qui est extrêmement lourd dans le cas 
général, se simplifie considérablement s’il est possible, sans trop altérer l’information 
contenue dans les observations, de ranger celles-ci dans des classes de mêmes limites 
pour X et Y. 


Kônig-Huygens (formule de) 
Voir formule de Huygens-Kôünig. 


Kruskall-Wallis (test de) (Kruskall-Wallis test) 
Test non paramétrique utilisé pour comparer les distributions de plusieurs échantillons statis- 
tiques. Comme le test de Wilcoxon, il fonctionne, non pas à partir des valeurs précises obser- 
vées, mais à partir des rangs de ces valeurs interclassées. 
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Si les variables aléatoires X;, X), …, X, dont proviennent respectivement les g échantillons 
ont toutes même loi, elles ont en particulier même espérance mathématique, et c’est très 
. comme test de l’hypothèse dérivée « 1, =, =... =, » que le test de Kruskall-Wallis 
est utilisé. 


test non paramétrique de comparaison de q lois de probabilité, 
également utilisé pour comparer q espérances mathématiques lu, L, .…, La 


+ Données. q séries ou groupes, soit pour chaque k (1 £K< g) : un échantillon (x, xp, …, 
Xkn,) de n, valeurs observées d’une variable aléatoire numérique X, d'espérance mathéma- 
tique 14. On note N le nombre total de valeurs observées n; +7, +..+n,. 


+ Hypothèse réellement testée. H, = « toutes les X, ont même loi » contre H, alternative. 


* Hypothèse dérivée. H, = «}l, = U, =.= 4,» contre H; = « il existe au moins deux espé- 
rances différentes ». 


+ Déroulement technique du test 
1. On classe les N valeurs observées, tous groupes confondus, par ordre croissant. 
2. Pour chaque k on calcule la somme T, des rangs des valeurs de la variable X, (s’il y a 
des ex æquo, on leur attribue le rang moyen). 
3. On calcule la valeur observée de la variable de test par l’une ou l’autre des formules : 


q q 
T2 1h 2 
ae Se Ne nf). 
FO +D 2 a Na + D 2 mn 2 


Les valeurs de référence de la variable de test sont à lire dans les tables de la loi du Kkhi- 
deux, elles dépendent du nombre de degrés de liberté : ddl = q — 1, et du risque ©. 


+ Conditions et précautions 
— I n’y a aucune condition sur la loi commune à toutes les X, ; 


— par contre, la loi du khi-deux est la loi limite pour la variable de test, ce qui induit une 
condition de taille : il est classique de demander que l’effectif n, de chaque groupe soit >5. 


de Laplace (Pierre-Simon) 

Astronome, mathématicien et physicien français (1749-1827). Il publia une somme monu- 
mentale, Théorie analytique des probabilités (corrélation, convergence stochastique, théo- 
rème central limite, …) et fit des travaux importants en mécanique céleste et en physique 
(théorie de la chaleur, électromagnétisme). 


Laplace (loi de) (Laplace distribution) 


Loi d’une variable aléatoire continue qui avait été proposée par Laplace pour rendre compte 
des erreurs d’expérience, rôle où elle a été abandonnée au profit de la loi normale alias loi de 
Laplace-Gauss. 


Formulaire 


Version standardisée sans paramètre ; valeurs sur les réels. 
> Loi de probabilité 


fA FA 
1 
0 x di 0 x d 
densité fonction de répartition 
i le si x < 0 
fo) = _ F(x) = 


1-lex six>0 
2 
> Valeurs caractéristiques 
— espérance : E(X) = 0 
— variance : Var(X) =2 
— écart-type : G(X) = 4/2 


Cette loi est la loi de la différence entre deux v.a. exponentielles de paramètre À = 1 et indé- 
pendantes. 
Synonyme de première loi de Laplace, loi double-exponentielle. 


Laplace-Gauss (loi de) 
Synonyme de seconde loi de Laplace. Voir normale (loi). 
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Legendre (Adrien-Marie) 


Mathématicien français (1752-1833). Il introduisit la méthode des moindres carrés (utilisée 
par Gauss en astronomie) pour l’ajustement en statistique et fit des travaux importants en 
théorie des nombres et en analyse. 


lemme 


Voir Borel-Cantelli (lemme de), Neyman-Pearson (lemme de). 


Lévy (Paul) 


Mathématicien français (1886-1971). Il approfondit la théorie des processus et du mouve- 
ment brownien. 


libre (test) (free test, distribution-free test) 
Voir test d’hypothèse. 


linéaire (fonction) 
Stricto sensu, fonction de la forme y = bx. En fait, les fonctions « affines » y = a + bx que l’on 


rencontre notamment en statistique comme courbes de régression sont le plus souvent quali- 
fiées de « linéaires ». 


linéarité d'une régression (test de) (test of linearity) 
Test paramétrique qui contrôle la linéarité d’une régression dans le cas d’un couple de varia- 
bles (X, Y) pour lequel on dispose de plusieurs observations de Y pour chaque valeur x; de X 
(il suffit en théorie qu’il y ait au moins deux observations pour une seule des valeurs de X, 
mais la pertinence du test devient douteuse s’il n’y a pas plusieurs observations pour beau- 
coup de valeurs de X). Dans ce cas il est possible de calculer le rapport de corrélation eÿix ; 
et la linéarité se contrôle en testant l'égalité de ex avec le carré r? du coefficient de corré- 
lation linaire. 


test de contrôle de la linéarité d'une régression 
+ Données. Un échantillon de qg groupes d’observations relatifs aux valeurs x,, x, ...,x, de X, 
avec pour le groupe n° i, n, valeurs observées y;1, y, .…, y;, de la variable Y. 

L 

On pose ñn = ni ++... +n 
- Hypothèse testée. H, = « l’espérance conditionnelle est affine : E(Y/x) = à + BX » = 
« nyix = p? » contre H, = « nyx ÉD? » 
+ Déroulement technique du test 


1. On calcule avec les formules usuelles le coefficient de corrélation linéaire observé r et 
2 . 2 2 = 2 
le rapport de corrélation observé e° = eÿ x. 


2. On calcule la variable de test : 
Fa) 
qg—2 


b 

n—q 

Les valeurs de référence de la variable de test sont à lire dans les tables de la loi de Fisher- 
Snedecor, elles dépendent des deux degrés de liberté g —2 et n — q, et du risque ©. 


g-2n-q7 


114 logarithme itéré (loi du) 


+ Conditions et précautions 


— En théorie le couple (X, Y) doit être une v.a. normale (à deux dimensions) ; en outre, 
la variance conditionnelle Var(Y{x) doit être constante, exigence difficile à apprécier 
et à contrôler... ; 


— lorsque le couple (X, Y) n’est pas normal, le test est robuste et reste applicable si les 
effectifs n; des groupes d’observations par valeurs de X sont « assez grands » 


Remarque : On trouve parfois la formule « type analyse de la variance » F,_, ,_4 


2 
= —, où s? est la variance entre valeurs de x de l’écart (à la linéarité) et s2 la 
variance résiduelle. C’est une simple variante de la présentation, et la valeur de la 
variable de test est la même (le premier nombre de degrés de liberté est ici g —2 et non 


pas g — 1 car la régression estime 2 paramètres et non pas 1). 


logarithme itéré (loi du) (law of iterated logarithm) 


Lorsque l’on considère par exemple une suite de parties de Pile ou Face, avec pour chaque 
partie un gain de 1 ou une perte de 1 selon le résultat, le somme des gains est une variable 


S 
aléatoire S, centrée, dont on sait qu’elle vérifie les deux propriétés : d’une part — tend vers 
n 


0 («en probabilité » et aussi « presque sûrement »), et d’autre part l’ordre de grandeur 


moyen de — est L . À un niveau approfondi, la « loi » du logarithme itéré (qui est tout 


L n 
aussi un théorème que la « loi » des grands nombres !) donne un renseignement supplémen- 


| S 
taire sur les valeurs extrêmes de —. 
n 


Théorème. On considère une suite (X,) de variables aléatoires (réelles) indépen- 
dantes et identiquement distribuées, d’espérance mathématique 1 et de variance o2. 
On définit les sommes S, = X, + X, + … + X,, puis les variables centrées réduites 
correspondantes : 


LS, AH 
n on 


Alors on a presque sûrement : 


n 


N2lninn 


On peut aussi dire, en « traduisant » la notion mathématique de limite supérieure, 
que, pour tout c > 1, il n’y aura presque sûrement qu’un nombre fini d'évènements 
«[Z,]> c /21ninn » qui se réaliseront. 


£1. 


lim sup 
n — © 


Sur la présentation donnée en introduction de gains +1 ou —1, cela veut dire que, pour c > 1, 


[S4l c/2ininn 
n 


n 


ne dépassera qu’un nombre fini de fois (et /21ninn est une fonction qui 


tend vers l’infini très très lentement !). 
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logit (transformation en) (logit transformation) 
Transformation y = iQ). appliquée à la fonction de répartition empirique d’une 
—F(x 


distribution statistique d’un échantillon d’une variable aléatoire, et qui permet pour certains 
types de lois de représenter graphiquement cette fonction de répartition par une droite (nofa : 
le « log » de logit est le début du mot logistique). 

log-normale (loi) (log-normal distribution) 
Loi d’une variable aléatoire continue dont le logarithme est une v.a. normale. 


Formulaire 


Deux paramètres réels : € R et ce R; ; valeurs sur les réels positifs. 


> Loi de probabilité 
f densité 


fonction de répartition 


NX me À ro « Fur 0 


mode 


xY 


> Valeurs caractéristiques 
: o? 
— espérance : E(X) = exp{u + a) 
— variance : Var(X) = exp(2u + 62) (exp(o2)-1) 


— écart-type : G(X) = exp{u + )exp to — 1) 


»> Autres valeurs caractéristiques 
mode : M, = exp(li + 62) médiane : M = exp(ui) 


> Utilisation 
Si X suit une loi log-normale de paramètres 1 et 6, Z = In X suit une loi normale (li, o). 
Attention ! Het 6 ne sont donc pas l’espérance et l’écart-type de X. 
Dans la pratique, la loi normale est une approximation de la « résultante multiplicative » de 
grandeurs aléatoires positives, petites et nombreuses, et pas trop mutuellement dépendantes. 
Cette loi est très employée par les utilisateurs professionnels. Néanmoins, lorsque l’écart- 
type est faible devant l’espérance (inférieur au quart, par exemple), une telle résultante multi- 
plicative est souvent approchée par une loi normale « ordinaire » (la probabilité artificielle 
que la variable aléatoire soit négative est alors négligeable). 
Remarque : la loi log-normale est parfois appelée loi de Gilbrat lorsque le paramètre 
u est nul ; ce cas particulier est d’un intérêt très limité. 


loi conjointe 
Voir couple de variables aléatoires. 


116 loi des estimateurs et intervalles de confiance 


loi des estimateurs dans une régression et intervalles de confiance 


On considère un couple (X, Y) de variables numériques, soit dans une situation de modèle 
linéaire (X est alors un ensemble {x;} de valeurs « maîftrisées » et Y un ensemble {Y;} de 
variables aléatoires normales associées), soit dans une situation de régression linéaire ((X, Y) 
est alors un couple de v.a. qui suit une loi normale à 2 dimensions). On peut définir dans l’un 
et l’autre cas la droite de régression théorique y = & + Bx, et la droite de régression empirique 
y=a+pbx. 

On donne ci-dessous des estimations non biaisées de tous les paramètres et coefficients qui 
interviennent (on peut employer au choix le langage des estimations, ou celui des estimateurs 
(dont les estimations sont des « réalisations »)). 


> Variances marginales et covariance 
i 


1 i=n L 1 =7n L 
sx = D'G-02,5$ = D Gi)? Covx y = 
=] =] 


RE n= 1; 


n-1l: 


LS 0-5) 
al 


sont des estimations sans biais de 6%, 6% et Covx y. 
> Coefficients de la droïte de régression, coefficient de corrélation 


i=zn 


SG): 5) : 
Sn 


i=n 

>. GA) 

i=1 
sont des estimations sans biais de fi, & et p = Corr(X, Y) (quel que soit le mode de 
calcul : les quotients qui définissent ces paramètres font disparaître les dénomina- 
teurs, qu’ils soient nr ou n — 1 (sous réserve de cohérence) et annulent donc l’effet 
des biais ou des débiais). 


> Valeur de l'espérance conditionnelle 
a + bx est une estimation sans biais de E(Y[X = x) 
> Variance résiduelle 


SxSy 


i=n 
1 : . — 
s2 = Rs; 3 (y, (a + bx;))? est une estimation sans biais de 62 = 62. 


i=1 


On donne maintenant les lois des estimateurs avec leurs paramètres, qui seront utilisées soit 
pour calculer des intervalles de confiance, soit pour effectuer des tests d’hypothèses (les deux 
démarches étant, présentation exceptée, entièrement équivalentes). 

Dans toutes les formules qui suivent, s représente la racine carrée de l’estimation non biaisée 
(ci-dessus) de la variance résiduelle. 


> Pente de la droite de régression 


, le quotient bB suit une loi de Student à n — 2 degrés de 
Sb 


liberté. 
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> Ordonnée à l'origine de la droite de régression 


a — 


, le quotient suit une loi de Student à n — 2 degrés 


a 


de liberté. 
> Coefficient de corrélation 
LA 


> Valeur de l'espérance conditionnelle 


An —2 suit une loi de Student à n — 2 degrés de liberté. 


(a +bx)-E(YIX = x) 


Sa+bx 


_ (a@+bx)-(o+fx) 
s 


suit une loi de Student à n — 2 degrés de liberté 


a + bx 


loi d'une variable aléatoire / loi de ([probability] distribution) 
probabilité d'une variable aléatoire 

Mesure de probabilité d’une variable aléatoire, qui peut être explicitement décrite, ou bien 
caractérisée en donnant les valeurs prises et la liste ou l’expression de la mesure de probabi- 
lité, ou encore définie par référence à une variable aléatoire « modèle » classique. 


Exemple 1 cas discret, liste des valeurs et liste des probabilités : soit X la variable aléatoire 
qui prend les valeurs 1, 3 et 5 avec les probabilités 0,1, 0,8 et 0,1. 

Exemple 2 cas discret, caractérisation des valeurs et expression mathématique des proba- 
bilités : soit X la variable aléatoire qui prend les valeurs entières de k = 0 à k = n—1, avec les 

n—k NE " n-1 

LEE (il faut bien sûr contrôler que >. ok = 1). 
Exemple 3 cas discret, référence à une variable aléatoire classique : soit X la variable de 
Poisson P(u) de paramètre u = 2,5. 

Exemple 4 cas continu, caractérisation des valeurs et caractérisation de la mesure de 
probabilités par l’expression de sa densité : soit X la variable aléatoire qui prend ses valeurs 


probabilités définies par P(X = k) = p, =2 


sur l’intervalle [-1, 1] avec la densité de probabilité {(x) = iq — x2) (il faut bien sûr contrôler 


1 
que [ fendx =; 1: 


Exemple 5 cas continu, référence à une variable aléatoire classique : soit X la variable 
normale N(u, 6) de paramètres 1 = 1,39 et 6 = 0,08. 

Voir variable aléatoire (typologie). 

loi jointe 

Voir couple de variables aléatoires. 


loi marginale 
Voir couple de variables aléatoires. 


Lorentz (courbe de concentration de) 
Voir concentration (courbe de — de Lorentz). 


Mann-Whitney (test de) (Mann-Whitney test, u-test) 


Test d’hypothèse non paramétrique utilisé pour comparer les distributions de deux échan- 
tillons statistiques. Il fonctionne, non pas à partir des valeurs précises observées, mais à 
partir des rangs de ces valeurs interclassées. 


Si les variables aléatoires X et Y dont proviennent respectivement les deux échantillons ont 
même loi, elles ont en particulier même espérance mathématique, et c’est très souvent 
comme test de l’hypothèse dérivée « 1x = ly » que le test de Mann-Whitney est utilisé. 
L'hypothèse (réellement testée) H, = « X et Y ont même loi » a pour conséquence immédiate 
la symétrie P(X <Y) = P(X 2 Y) (si les lois sont continues, on a par surcroît P(X = Y) = 0, et 


donc P(X <Y) = P(X > Y) = ; ). La mise en œuvre du test de Mann-Whitney est une simple 


exploitation de cette égalité des probabilités symétriques. 


test non paramétrique de comparaison de deux lois de probabilité, ——— 
également utilisé pour comparer deux espérances mathématiques Lx et pLy 


+ Données. Deux séries : 


— un échantillon (x;, x, …, Xnx) de nz valeurs observées d’une variable aléatoire numé- 
rique X d’espérance mathématique LU, ; 


— un échantillon (y;, y: …, Yny) de ny valeurs observées d’une variable aléatoire numé- 
rique Ÿ d’espérance mathématique f1+. 


+ Hypothèse réellement testée. H,, = « X et Y ont même loi » contre H, alternative. 
* Hypothèse dérivée. H,, = « 13 =1y » contre H, =«UyxÆ y » 


+ Déroulement technique du test 


1. On classe les ny + ny valeurs observées par ordre croissant. j 

2. On calcule le nombre U, d’inversions y; < x; (s’il y a des ex-æquos, on compte = pour 
tout couple y;= x;). 

3. On calcule la valeur observée de la variable de test : 


nxn 
| De 
Yx 2 
pets +ny+1) 
12 

Les valeurs de référence de la variable de test sont à lire soit dans des tables spécifiques pour 
les petites valeurs de nx et n,, soit dans la table de la loi normale (centrée réduite), pour le 
risque bilatéral oc. 


U = 
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+ Conditions et précautions 
— Il n’y a aucune condition sur la loi commune à X et Y ; 


— par contre, la loi normale (centrée réduite) est la loi limite pour la variable de test, ce 
qui induit une condition de taille si l’on ne dispose pas de table spécifique ; il est clas- 
sique de demander n, et ny 2 10 pour pouvoir se référer à la table de la loi normale. 


Il règne un certain flottement dans l’appellation de ce test. Il existe en effet un test de 
Wilcoxon qui teste les mêmes hypothèses dans la même situation, en calculant la somme des 
rangs au lieu de compter les inversions du classement. Ces deux tests sont complètement 
équivalents (la variable W, du test de Wilcoxon et la variable U,,, du test de Mann-Whitney 


sont liées par la relation U,,, = W,y — x (x + 1). Dans certains ouvrages, les appellations 


sont permutées. 


marginal, e (marginal) 
Dans une situation probabiliste ou statistique « bidimensionnelle >» ou « multidimension- 
nelle », qualifie ce qui concerne une seule des variables : probabilités marginales, densité 
marginale, loi marginale, effectifs marginaux, fréquences marginales, espérance ou moyenne 
marginale, variance marginale, écart-type marginal. 

Le mot s’inspire des tableaux « de contingence » pour deux variables, où traditionnellement 
les effectifs marginaux sont calculés dans la marge droite (sommation des lignes) et la marge 
inférieure (sommation des colonnes). 

Voir couple de variables aléatoires. 


martingale (martingale) 


Terme qui désigne dans la langue courante, dans un contexte de jeux de hasard, une stratégie 
qui permet (qui permettrait...) de gagner à coup sûr. Si le jeu n’est pas « équitable » (.e. si 
l’espérance de gain du joueur est négative — c’est le cas notamment pour tous les jeux de 
casino !), c’est bien sûr totalement impossible. Et si Le jeu est « équitable » (1.e. si l'espérance 
de gain du joueur est nulle), un théorème de calcul des probabilités énonce qu’il ne peut 
exister de martingale que si la fortune du joueur est infinie. 

Ce terme a été repris par les mathématiciens pour désigner une catégorie de processus 
stochastiques (X,) dont la propriété essentielle est que l’espérance conditionnelle (à tout ce 
qui précède) de X,,, (à ce niveau élaboré, l’espérance conditionnelle est elle-même une 
variable aléatoire) est X,. Ces processus peuvent notamment modéliser les gains cumulés 
d’un joueur dans un jeu équitable. 


Markov (Andreï) 


Mathématicien russe (1856-1922). Il prépara la modernisation du calcul des probabilités et 
introduisit les chaînes d’évènements. 


Markov (chaîne de) 
Voir chaîne de Markov. 


Markov (inégalité de) 


Voir Bienaymé-Tchebychev (inégalité de). 
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maximum de vraisemblance (maximum likelihood method) 
(méthode du) 


Méthode théorique d’estimation des paramètres. On considère n valeurs observées (x1, x, 
…, X,) d’un échantillon de n variables aléatoires indépendantes et de même loi, loi dépendant 
d’un paramètre 6. On définit alors une fonction L(8 ; x, x, …, x,) qui est, pour la valeur 8 du 
paramètre, la probabilité de la loi jointe de l’échantillon (X,;, X;, …, X,) dans le cas discret, 
ou sa densité jointe dans le cas continu. Consédérée comme fonction de 8 seul, cette fonction 
s’appelle la « vraisemblance ». 

Dans son principe, la méthode du maximum de vraisemblance consiste à choisir comme esti- 
mation de 6 la valeur qui maximise la vraisemblance L(8 ; x,, x», …, x,), Le. la valeur pour 
laquelle les observations effectuées avaient « le plus de chance » de se produire. Cette justi- 
fication empirique est confirmée par des théorèmes de mathématiques et cette méthode géné- 
rale fournit des estimateurs qui sont très souvent les meilleurs. 


Maxwell (loi de) (Maxwell distribution) 


Synonyme de Maxwell-Boltzmann (loi de). 
Loi d’une variable aléatoire continue qui peut être définie comme la racine carrée de la 
somme des carrés de trois variables aléatoires normales indépendantes Y,,Y, et Y;, centrées 


et de même écart-type : 
= 2 2 2 
X= JYS+Y5+Y; 


Formulaire 


Un paramètre réel c e R° (qui est l’écart-type des v.a. normales indépendantes Y,). 
> Loi de probabilité 


densité fonction de répartition 
2, 2 k 

fa) = BE) (x2>0) F(x) = [ f(t)dt (x>0) 
Tc? 2c2 0 


> Valeurs caractéristiques 
— espérance : E(X) = fc = 1,596c 
T 


378 2 _ 


— variance : Var(X) = 0,454 c2 


— écart-type : G(X) = ons c=0,673c 
T 


> Utilisations 


De par sa définition même, la loi de Maxwell est la loi de la distance à l’origine d’un point 
aléatoire de l’espace, dont les coordonnées sont trois variables aléatoires normales indépen- 
dantes, centrées et de même écart-type. 

C’est également, et « naturellement », la loi de la distribution des vitesses des molécules dans 
un gaz ; on trouvera dans l’article juste suivant mécanique statistique une justification de cette 
distribution comme conséquence de la modélisation effectuée par la mécanique statistique. 


Voir Rayleigh (loi de). 
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mécanique statistique (statistical mechanics) 


Branche de la physique ayant pour but d’expliquer le comportement macroscopique d’un 
système composé d’un grand nombre d’éléments ou de de particules à partir de la modélisa- 
tion microscopique de ses particules. Les grandeurs physiques macroscopiques sont modéli- 
sées par des moyennes (des espérances mathématiques) relatives au système des particules. 


Cette discipline est intimement liée aux concepts fondamentaux de la thermodynamique 
(entropie notamment) ainsi qu’à la théorie de l’information. Son premier objet a été la 
théorie cinétique des gaz (Boltzmann, Maxwell, Gibbs). 


Considérons un système physique X constitué de N particules x; « distinguables » : X = 
{x;} Si<N.Sa dynamique est régie par la loi de Newton (Vi ma; = F;), et l’état microsco- 
pique des N particules est représenté dans un espace abstrait appelé « espace des phases ». 
Mais certaines grandeurs macroscopiques attachées à ce système (température, pression, 
aimantation, ...) ne dépendent pas «en détail » de son état microscopique. Il est donc 
possible de calculer ces grandeurs sans connaître l’état microscopique. 


En mécanique statistique, on formule les postulats suivants : 

1. Hypothèse ergodique : les grandeurs « moyennes temporelles » (correspondant aux 
mesures physiques qui s’effectuent durant un temps très long à l’échelle des mouvements 
microscopiques) sont égales aux grandeurs moyennes calculées sur tous les états du système 
selon une loi de probabilité (dénommée « ensemble ») qui attribue la probabilité p; à chaque 
état i du système (1 <i< N). 

2. Principe du maximum d’entropie : la loi de probabilité des états du système est d’entropie 
S(X) = — Z; p; In(p;) maximale. 

La maximisation de l’entropie s’effectue sous des contraintes reliées à l’énergie des états. Si 
on considère un système isolé de particules toutes de même énergie E,, en nombre N = Q(E,), 


on trouve que tous les états sont équiprobables et donc Vi p; = = exp(—S(X)) : la distri- 


1 
Q(E5) 
bution de probabilité obtenue s’appelle « ensemble microcanonique ». 

Si on considère maintenant un système isolé de N particules et si on attribue une énergie E(i) 
à chaque état du système, l'énergie moyenne du système est <E> = Z; p; E(i). La maximisa- 


tion de l’entropie du système sous les deux contraintes, la contrainte triviale Z; p; = 1 et la 
contrainte <E> fixée, conduit à une loi de probabilité de la forme p; = J exp(-B E(i)) : la 
B 


distribution obtenue s’appelle « ensemble canonique » ou encore « distribution de Gibbs ». Le 


paramètre L est identifié à KT, où k est la constante de Boltzmann et T la température (en 


B 


degrés Kelvin) du système, et le coefficient Zg = 2, exp(-B E(u)) s’appelle la fonction de 


partition. C’est à partir de cette fonction que l’on peut calculer les grandeurs macroscopiques : 
par exemple l’énergie <E> est égale à l'opposé de la dérivée partielle de Zg par rapport à B. 


Il faut ajouter que ces distributions sont établies dans le cadre de la mécanique classique et 
que d’autres distributions interviennent dans le cadre de la mécanique quantique (statistique 
de Fermi-Durac, statistique de Bose-Einstein). 


C’est la distribution de Gibbs qui est à la base de la distribution de Maxwell-Boltzmann des 
vitesses des molécules dans un gaz. Dans ce cas, l’énergie considérée est l’énergie cinétique. 
Le problème est un peu plus compliqué car l’énergie varie continûment ; il faut considérer des 
densités de probabilité et remplacer les sommes par des intégrales. Pour une particule de 
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masse mm, l’état est défini par sa vitesse v = (v,, v,, v.) et on peut montrer que la densité de proba- 
bilité vérifie une formule analogue : f{v) = . exp(—fu) où u = sv? = sm(v? + v2+ v2). 


En reportant l’expression de Zg (non donnée ici) et celle de # dans f(v), on obtient la densité de 
la loi de Maxwell-Boltzmann relative à la racine de la somme des carrés de 3 v.a. normales de 
1 LKT 

m m 


variance O6? = . On peut ensuite utiliser cette distribution pour calculer des grandeurs 


statistiques et établir des relations : la vitesse moyenne d’une particule est liée à la température 


du système par <v?> = is , le produit de la pression par le volume vaut nKT, etc. 
m 


médiale (medial [valuel]) 


Indicateur de tendance centrale attaché à une variable aléatoire réelle X, en principe positive, 
et qui représente généralement un « bien » susceptible d’être « possédé » par des individus. 
La médiale est la (ou une des .….) valeurs qui partage la distribution (en probabilités) ou la 
série des valeurs (en statistique) en deux parties qui « accumulent » la même quantité du bien 
(50 % de la quantité totale). Elle se « lit » de façon très simple sur la courbe de concentration 
de Lorentz. 


médiane (median [valuel) 


Indicateur de tendance centrale attaché à une variable aléatoire réelle. La médiane est la (ou 
une des …) valeurs qui partage la distribution (en probabilités) ou la série des valeurs (en 
statistique) en deux parties de même probabilité (0,5) ou de même effectif (50 % de l’effectif 
total). Elle se note le plus souvent M ou Me. L'information qu’elle fournit peut être 
complétée par les quartiles, les déciles, etc. 

Si la signification concrète de la médiane est simple et « parlante », la traduction formelle est 
plus délicate. 


Formules (calcul des probabilités) 


Si la v.a. réelle X est discrète, caractérisée par l’ensemble (fini ou dénombrable) de 
valeurs {x;}, avec les probabilités ponctuelles p; = P(X = x;) , la médiane est toute 


valeur M telle que : 
> mi <0,5 et > mp: <0,5. 


Le plus souvent, cela caractérisera une valeur unique x, pour laquelle on aura simul- 


tanément > PES 0,5 et D: si P; 0,5. Il pourra arriver exceptionnellement 
di : k dé a 


qu’il existe deux valeurs consécutives x, et x,,, telles que l’on ait exactement 


>. _. Pi=05 et D. . _Pi=0,5. Dans ce cas on peut prendre pour médiane 
RESNE ME Xk4 1 


toute valeur comprise entre x, et x, ., (dans la pratique, on prend le plus souvent le 
milieu ou une valeur « ronde »). 

Si X est absolument continue, caractérisée par la densité de probabilité f(x), la 
médiane M est définie par : 


M 
J f{x)dx = 0,5 


(Cela caractérise une valeur unique si la densité ne s’annule pas sur un intervalle au 
centre de la distribution — circonstance exceptionnelle dans la pratique). 
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Formules (statistique) 


Si la série statistique présente des observations individualisées en nombre impair 
2m+1:x, <x <.… <X,4,,1a médiane M est la valeur centrale : 
M = Xm + 1° 
Si la série statistique présente des observations individualisées en nombre pair 
2m: x, <X < … < X»» , On peut prendre pour médiane M est toute valeur de l’inter- 
valle central : 
M au choix entre x,, et x,, 1. 


Tn ŸXm+1, 


2 


Si la série statistique présente n observations individuelles regroupées selon k classes 
d’effectif n; pour la classe Ja, a;, ,], il peut exister (cas exceptionnel) une valeur az 
telle que l’effectif des classes jusqu’à a, soit exactement la moitié de l’effectif total 
(et de même pour l’effectif des classes au-delà de a,), alors : 
M = a}. 

S1 la série statistique présente n observations individuelles regroupées selon k classes 
d’effectif n; pour la classe Ja, a;,,], et s’il existe (cas général) une classe Jay, ay, 1] 
telle l’effectif des classes avant a, soit inférieur à la moitié de l’effectif total, et 
l’effectif des classes après a, , , soit inférieur à la moitié de l’effectif total, alors : 

— d’une part on dit que ]Ja,, a, , ,] est la classe médiane, 


— d’autre part, si la variable est continue, on peut prendre pour valeur ponctuelle 
M de la médiane la valeur qui partage l’histogramme en deux parties d’aire 
égale (on rappelle que la caractéristique de l’histogramme est d’avoir les aires 
proportionnelles aux effectifs). 


<50% <50% = 50% =50% 
I TK 


(le choix est le plus souvent le milieu de cet intervalle central : M = 


= 


Calcul de la valeur médiane (par « interpolation linéaire ») : la classe médiane étant 
la 474,1, on note F;_, la fraction d’effectif cumulée jusqu’à la classe précédente 
(donc jusqu’à a,) et f, la fraction d’effectif de la classe médiane. Alors : 


A 


M=ay+(a;,;-a) (= 
k 


médiane (test de la —- de Mood) (Mood median test) 


Test non paramétrique rapide qui compare deux distributions numériques par un khi-deux à 
4 cases : on mêle les deux échantillons numériques observés, on calcule la médiane globale 
M et on porte comme effectifs observés le nombre de valeurs supérieures/inférieures à M 
pour le premier puis pour le deuxième échantillon. 


médiane (test de la valeur d'une) 
Voir signes (test des). 
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mémoire 

«Le hasard n’a pas de mémoire » (Joseph Bertrand, repris par Émile Borel). S’il se trouve 
(par hasard !) que l’on a obtenu 10 fois Pile en lançant 10 fois de suite une pièce (« honnête » 
ie. non faussée !), Face n’a toujours qu’une chance sur deux de sortir au 11° lancer, pas plus 
(même pas un tout petit peu plus !!1). 


mesure de probabilité (probability measure) 


Pour être une mesure de probabilité, une application définie sur l’ensemble des évènements 
d’un espace probabilisable (Q, .4) et à valeurs réelles doit vérifier des propriétés sur les 
valeurs prises, et être « additive ». À un niveau élémentaire, on limite la vérification de 
l’additivité à la réunion finie. 

On dit qu’une application P : À — R, définie sur l’ensemble des évènements associés à un 
espace fondamental Q est une mesure de probabilité si elle satisfait les trois propriétés (ou 
« axiomes ») : 


— pour tout À € 4,0 <P(A)< 1 ; 

— P(Q)=1; 

—- ANB == P(AUB) = P(A)+P(B). 

> Commentaires 

1. «0 < P(A) £ 1 » signifie que les probabilités sont toujours positives, et inférieures ou 
égales à 1. 


2. « P(Q) = 1 » est une autre manière de dire que l’unité des probabilités est la mesure de Q 
dont on a noté, qu’en tant qu’évènement, il est l’ « évènement certain ». 


3. «ANB = = P(AUB) = P(A)+P(B) » signifie que, si deux évènements sont 
disjoints, leurs probabilités s’ajoutent. C’est très exactement la caractéristique de toute 
« mesure » (de longueur, d’aire, de masse, ….). 


À un niveau plus approfondi, il faut considérer la réunion infinie dénombrable, et vérifier la 
« G-additivité ». 
> Définition formelle complète 


On dit qu’une application P : À — R, définie sur l’ensemble de évènements associés à un 
espace fondamental Q est une mesure de probabilité si elle satisfait les trois axiomes : 


1. pour tout A € À,0 <P(A)< 1 ; 
2. P(Q)=1 ; 
3. si (A,) (n = 1, 2, ….) est une suite d’éléments de À, deux à deux disjoints, alors : 
P LU A,) = > P(A,) 
n=l n=-1l 


Voir additivité. 

méthodologie des tests d'hypothèses 
Voir tests d’hypothèses (méthodologie des). 
milieu 


Voir centre. 
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modale (classe) 


Dans une présentation où les classes d’une distribution statistique sont d’égale amplitude, 
classe d’effectif maximal. 


Voir mode. 


modalité 


Valeur que peut prendre une variable aléatoire ou une variable statistique (ou caractère) dans 
les cas où cette valeur est élément d’un ensemble sur lequel on ne peut pas effectuer d’opéra- 
tion mathématique (addition notamment). 


mode (mode, modal value) 


Le mode d’une série statistique est en principe la valeur la plus fréquente, j.e. la valeur de la 
variable pour laquelle l'effectif est maximal. Lorsque la variable est discrète et ne peut 
prendre qu’un nombre restreint de valeurs, le mode est « très bien » défini et c’est une carac- 
téristique de tendance centrale intéressante. Lorsque la variable est discrète mais à valeurs 
très nombreuses, ou bien continue, la présentation se fait avec des regroupements en classes, 
et le mode est en réalité une classe modale. Dans ce cas, il est obligatoire que les classes 
soient d’égale amplitude ; en outre, la définition du mode peut varier selon le choix des 
classes pour le regroupement des valeurs, et il faut vérifier que les classes ne sont ni trop 
petites (entraînant des irrégularités non significatives) ni trop larges (« lissant » artificielle- 
ment la distribution). 


ul | 5 


mode classe modale 


On emploie également le mode en probabilités pour désigner la valeur de la variable de 
probabilité maximale (pour une loi discrète) ou la valeur de densité maximale (pour une loi 
continue). 

Enfin, on peut imaginer que l’on définisse des modes relatifs, maximums locaux de l’effectif. 
Cette perspective se retrouve dans les adjectifs unimodale, bimodale et plurimodale, utilisés 
pour qualifier des distributions présentant, soit un unique maximum, soient plusieurs maxi- 
mums importants et nettement séparés (le cas bimodal par exemple est souvent l’indice que 
la série statistique a été constituée par un échantillonnage portant, volontairement ou non, sur 
deux populations différentes et mélangées). 


modèle linéaire [gaussien] (linear model) 


Méthode de représentation géométrique et d’analyse statistique d’une situation probabiliste 
ou statistique « bidimensionnelle » ou « multidimensionnelle ». Dans le cas simple à deux 
variables, la situation décrite et analysée par le modèle linéaire est celle d’un ensemble {x;} 
de valeurs « maîtrisées » ou « contrôlées » d’une variable x et, pour chaque i, une variable 
aléatoire Y; « dépendante ». Le modèle linéaire ajuste la liaison entre les deux variables par 
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une relation Ÿ; = a + bx;+ E,;, où chaque E; est une variable aléatoire « écart » (a priori gaus- 
sienne). Le problème fondamental est de rechercher les valeurs des coefficients numériques 
a et b qui minimisent — en un sens approprié de ce mot — globalement les écarts E.. 

Dans le cas multiple à p + 1 variables (p 2 2), il y a p variables « contrôlées » x;, de valeurs 
{x;}, et la liaison entre les p variables contrôlées x; et la (p + 1)-ième variable dépendante est 
ajustée par une relation Y;= a + bix;, +... + b,x,, + E; où chaque E; est une variable aléatoire 
« écart » (a priori gaussienne). Le problème fondamental est de rechercher les valeurs des 
coefficients numériques a, b;, …, b, qui minimisent — en un sens approprié de ce mot — globa- 
lement les écarts E.. 


Voir droite de régression linéaire. 


modélisation (modelization) 


Démarche intellectuelle par laquelle on représente une situation concrète dans le cadre et 
avec les « outils >» d’une théorie scientifique. Cette démarche a pour but de décrire et de 
comprendre la situation concrète, et si possible de donner des éléments de prévision sur son 
évolution. 

Comme toute représentation, une modélisation nécessite une simplification de la situation 
concrète (réduction de la complexité, diminution du nombre de variables et du nombre de 
paramètres, approximations diverses), et sa pertinence — à tout le moins sa compatibilité — 
doit dès lors être évaluée. 


moindres carrés (droite des) 


Voir droite des moindres carrés. 


de Moivre (Abraham) 


Mathématicien français, huguenot réfugié en Angleterre (1667-1750). II démontra le théo- 
rème central limite pour la loi binomiale et écrivit Doctrine of Chances qui fut pendant près 
d’un siècle le traité classique du calcul des probabilités (on y trouve notamment l’indépen- 
dance et les probabilités conditionnelles). 


moments, moments absolus, (moments, absolute moments, 
moments centrés moments about the mean) 


Indicateurs numériques associés à une variable aléatoire réelle, et qui fournissent de 
nombreux renseignements sur sa distribution. L’espérance mathématique et la variance sont 
des moments particuliers (cf. ci-dessous). En calcul des probabilités, les moments sont reliés 
à la fonction caractérique, et en statistique, ils sont notamment utilisés pour définir des indi- 
cateurs de dispersion et de forme. 

Étant donnée une variable aléatoire réelle X d’espérance mathématique ui et un entier r > 1, 
on définit les moments de X par les espérances mathématiques suivantes : 


— moment (centré en 0) d’ordre r : m,(X) = E(X) ; 
— moment centré d’ordre r : H,(X) = E((X - x) ; 
— moment absolu d’ordre r : M,(X) = E(Xh). 


> Cas particuliers 


L’espérance mathématique L est le moment m,, la variance 6? est le moment centré m, ; par 
ailleurs, par la définition même de 11, le moment centré d’ordre 1 est égal à 0. 


© Dunod — La photocopie non autorisée est un délit. 


moyenne 127 


Si la variable aléatoire est discrète (donnée par ses valeurs {x;} et les probabilités 
ponctuelles p; = P(X = x;)), les moments se calculent par les sommes : 


D. xPr >. (WP; DATE 


S1 la variable aléatoire est absolument continue (donnée par sa densité de probabilité 
f(x)), les moments se calculent par les intégrales : 


[rcoax, [amor [ea 


Il faut remarquer qu’il n’y a pas de certitude que les sommes convergent, si l’ensemble des 
valeurs est infini, ou que les intégrales convergent, avant de l’avoir effectivement vérifié. 
Certaines variables aléatoires n’ont pas de moment si r dépasse une certaine valeur. Enfin les 
moments (définis ci-dessus dans le cadre du calcul des probabilités) ont tous un analogue 
statistique, qui se calcule en adaptant de façon évidente les fomules avec les sommes. 


moments factoriels (factorial moments) 


Indicateurs numériques associés à une variable aléatoire réelle, et qui fournissent des rensei- 
gnements sur sa distribution. Dans le cas particulier où la variable est à valeurs entières posi- 
tives, ils sont reliés à la fonction génératrice. 
Étant donnée une variable aléatoire réelle X et un entier r > 1, on définit le moment factoriel 
d’ordre r de X comme l’espérance mathématique : 

EX(X — 1)... (X-r+1)) 


moments (fonction génératrice des) 


Voir génératrice des moments (fonction). 


moustaches (boîte à) 
Voir boîte de dispersion. 


moyenne (mean [valuel]) 


La moyenne, telle qu’elle est définie de façon standard en statistique, est adaptée à l’étude des 
grandeurs à « sensibilité » additive (comprendre : grandeurs qui sont structurellement des 
sommes de grandeurs « élémentaires », ou bien qui ont un comportement « remarquable » par 
addition). Mais ce n’est pas le cas de toutes les grandeurs. Par exemple, de nombreuses gran- 
deurs positives (la taille ou le poids en biologie, le revenu ou la production en économie, etc.) 
ont une « sensibilité » multiplicative, attestée par exemple par la significativité du concept de 
«taux » de croissance. Dans ce cas, la moyenne géométrique sera le concept le mieux adapté. 


Il est donc utile de définir les différents types de moyenne que l’on peut être amené à utiliser. 


> Moyenne arithmétique 
— de 2 nombres x et y: 


— de n nombres x,, x, …., X, : 
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moyenne d’un échantillon statistique 


> 


> 


> 


Moyenne géométrique 
— de 2 nombres positifs x et y : 
mçG Nxy 
— de n nombres positifs x, x, …, X, : 
Ma = (C%2...x,) ln 
Moyenne harmonique 
— de 2 nombres non nuls x et y: 


my définie par 2e? + 
My  X 


Lie 


— de n nombres non nuls x,, X2, …., X, : 


6: n 1 1 1 
my définie par — = —+—+...+— 
my X1 X2 X 


CET) 
Mo= x2 + y 
2 
— de ñn nombres x, x, …, x, : 
x? +x2 +... +x2 
N= | 
n 
Inégalités 


Lorsque les moyennes sont toutes définies, on a : 


n 


Moyenne quadratique 
— de 2 nombres x et y: 


My MG SMALMQ 
(inégalités dès qu’il existe deux nombres différents, égalités si et seulement si 
tous les x; sont égaux) 


Exemple Si un véhicule roule pendant le temps f à la vitesse v,, et ensuite pendant /e même 
temps t à la vitesse v,, sa vitesse moyenne est la moyenne arithmétique de v, et de v,. Si un 
véhicule roule sur une distance x à la vitesse v,, et ensuite sur la même distance x à la vitesse 
v,, Sa vitesse moyenne est la moyenne harmonique de v, et de v;. 


On peut si nécessaire généraliser ces formules pour effectuer des moyennes pondérées. 


moyenne d'un échantillon statistique 


Dans une situation d’observation d’un échantillon statistique, la moyenne est le principal 
indicateur numérique de tendance centrale. Parfois qualifiée de moyenne observée ou de 
moyenne empirique ou encore de moyenne statistique, elle est définie comme la moyenne 
numérique des valeurs observées. 

La moyenne d’un échantillon d’une variable aléatoire X se note le plus souvent m%X ou m, 
(ou m ou m,p, S'il n’y à aucun risque de confusion), ou encore x. 


Formule pour n observations individualisées x,, x, …, x, : 


Ru 
X =" = 
n n 
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Formule pour n observations individuelles regroupées selon k classes d’effectif n; 
pour la valeur ë; : 


i=k 
L_ mé + Mb +.. + ny : : n; 
D) jou 


j=1 


Lorsque les classes sont des intervalles Ja, a; , ;], la valeur « typique » ë; qui est utilisée dans 


L a;+a;,] 
la dernière formule est celle du centre -=—{—- de la classe. 


moyenne d'un échantillon de variables aléatoires 


Dans une situation probabiliste d'épreuves répétées, avec un échantillon (X;, X;,, …, X,) 
d’une variable aléatoire numérique, la moyenne est est la variable aléatoire : 
X,+Xo+..+X, 


n 
moyenne mobile (moving average) 


Etant donné une série chronologique à intervalles de temps réguliers (x, x, …, x,, ...), on 
appelle moyennes mobiles d’ordre k = 2p + 1 impair les moyennes arithmétiques de k valeurs 
consécutives. Ces moyennes sont généralement rapportées au temps médian, de sorte que 


l’on a: j p 
Mp+10) = 2p+1 Y Xi 
i=-p 


M,= 


Cette définition peut être étendue au cas k = 2p pair, par exemple en comptant pour : les 
valeurs extrêmes : si = 
M)p(t) a > ep + > X4it ap 

i=-(p-1) 
Les moyennes mobiles sont utilisées pour « lisser » les courbes en atténuant l’effet des fluc- 
tuations accidentelles. Elles peuvent aussi être utilisées pour « corriger » globalement la 


série chronologique des « variations saisonnières ». 


moyennes (test de comparaison de) 
Voir Student (test de). 


multinomiale (loi) (multinomial distribution) 


Loi d’une variable aléatoire discrète de « multi-compte » à k dimensions (vecteur aléatoire) — 
ou d’un ensemble ordonné de k variables aléatoires discrètes — qui intervient dans les tirages 
sans remise à k éventualités. 


Formulaire 


Un paramètre entier positif k qui est la « dimension » ; k paramètres réels (probabi- 
lités des k éventualités) : p,, pr, …, p, € [0, 1] et qui vérifient p, +p,+.….+p,;=1; 
un paramètre entier positif n qui est le nombre d’épreuves. 
Deux présentations possibles de la v.a. multinomiale : 
— un vecteur aléatoire (N,, N;, …, N,) à composantes entières ; valeurs prises : 
des « k-uplets » (n,, n,, …, n,) d’entiers vérifiant n;, +n3+..+n,=n; 
— un ensemble ordonné (N;, N;, …, N,) de k variables aléatoires entières ; valeurs 
prises : les même k-uplets (n,, ñn, …, n,), appelés parfois « multi-entiers ». 
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Deux notations possibles : 
— P(N: No, .…, No) = (1, m2, …, n)) 
. P(N, =] et N; = et … et N,= ny) 
> Loi de probabilité 
! n n 
——pr..Pit 
n,l...ny! 


P(N, = n; et N; = nm; et.:..el N, = ny) = 


| ! : : : s 
(nota : le coefficient er s’appelle le coefficient multinomial et possède la 


n,l...ny! 
: n 
notation ) 
Niny 


> Valeurs caractéristiques 
— espérance : E(N) = np; 
— variance : Var(N)) = np; (1 —p;) 


— écart-type : G(N),) = fnp;( =p;} 
— covariance (j £ h) : Cov(N, N,)=-np;p; 
— coefficient de corrélation (j # h) : P(N; N,) = — a — 
er A-p)Q ps) 
> Cas particulier 
Lorsque k = 2, on obtient la loi binomiale (avec les notations p, g au lieu de p;, 
Po, et k, n — k au lieu de n,, m). 


> Utilisations 

La loi multinomiale est la loi du k-uple variable de « multi-compte » de & caractères dans des 
épreuves répétées — ou dans des tirages « AVEC remise ». On peut faire une présentation à 
partir d’une variable aléatoire X pouvant prendre k valeurs, codées 1, 2, …, k avec les probabi- 
lités p; = P(X = j) : les n épreuves répétées sont représentées par l'échantillon (X;, X:, …, X,), 
les k composantes de la v.a. multinomiale sont définies par N;= Card {iX;= i}. 

Chaque N); considérée isolément est une v.a. binomiale de paramètres n et p;. 


Exemple On lance 12 fois un dé. Quelle est la probabilité P d’obtenir exactement deux fois 


1, deux fois 2, … deux fois 67Onak=6,p,=.….=p n=ln=mMm=..=n=2, 


12 
d'oxbe s=ii) = 0.003441. 
21...21\6 


multinormale (loi) 


Voir normale à p dimensions (loi). 


multiple (coefficient de corrélation) 


Voir corrélation multiple (coefficient de). 


multirégression 


Voir droite de régression, régression à deux variables explicatives, corrélation multiple (coef- 


Jicient de). 
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négation logique 
Voir complémentaire. 


Neyman-Pearson (lemme de, théorème de) (Neyman-Pearson lemma) 
Théorème qui permet de construire le « meilleur » test d’hypothèse lorsque H, et H; sont des 
hypothèses simples. Étant donné une loi de densité L(8 ; x), un niveau @ (probabilité de rejet 
à tort de H,), et un échantillon (X;, X5, …, X,), le théorème de Neyman—Pearson permet de 
définir une région À de R’ qui est une « région critique optimale » pour le test de H, = 
«6 =,» contre H, = «0 = 8, ». Soit 1 —$ la puissance du test (probabilité de rejet justifié de 
H,). Alors, en conséquence du théorème, le test avec la région R est le plus puissant, il est 
sans biais (notion spécifique aux tests d’hypothèse qui signifie que 1 —B > &), et il est conver- 
gent (1 —B — 1 lorsque n — oo). 


niveau (level) 
Mot ambigu qui est utilisé aussi bien dans l’expression niveau de risque (notation tradition- 
nelle ©) que dans l’expression niveau de confiance (notation traditionnelle 1 — &). Employé 
de façon absolue, ce mot désigne la probabilité de risque de rejet à tort de l’hypothèse H, 
(appelé aussi risque de première espèce) pour un test d’hypothèse. 


nombre de degrés de liberté 
Voir degrés de liberté. 


nominal, e 
Se dit parfois d’une variable statistique (ou caractère) qualitative. 


non paramétrique (test) (non-parametric test) 
Voir test d’hypothèse. 


normale (loi) (gaussian distribution, normal distribution) 
Synonymes Gauss (loi de), Laplace-Gauss (loi de). 
Loi de la variable aléatoire continue qui tient la place centrale dans le calcul des probabilités. 


Formulaire 
Deux paramètres réels : 1 € R et ce R; ; valeurs sur les réels. 


> Loi de probabilité À 
densité d 
Sol fu) | 
FD = = exp(- | 
6/27 202 | 
| 
0 M x 
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fonction de répartition 


F(x) = . f(dt 


> Valeurs caractéristiques 
— espérance : E(X) = 
— variance : Var(X) = 6? 
— écart-type : G(X) = 6 
Cas particulier fondamental pour la théorie 
et pour les tables numériques : variable normale centrée réduite 


> Loi de probabilité 


19 = —exp( =) 
27 2 
> Valeurs caractéristiques 

— espérance : E(X) = 0 

— variance : Var(X) = 1 

— écart-type : G(X)= 1 


> Utilisations 


En théorie, la loi normale est la loi limite de la somme (ou de la moyenne) dans une suite 
infinie d’épreuves répétées — c’est également la loi limite de la somme (ou de la moyenne) 
d’une suite infinie de variables aléatoires vérifiant des conditions « raisonnables ». 

Dans la pratique, la loi normale est une approximation de la somme — ou « résultante 
additive » — de grandeurs aléatoires petites et nombreuses, et pas trop mutuellement dépen- 
dantes… 

La loi normale est en outre utilisée comme approximation de la « résultante mutiplicative » 
de grandeurs aléatoires positives nombreuses, lorque l’espérance est grande devant l’écart- 
type (à partir par exemple de 1 > 46). 

La loi normale possède une propriété extrêmement importante, la décroissance rapide de la 
probabilité en fonction de l’écart. Quelques valeurs numériques (W v.a. normale centrée 
réduite) montrent cette décroissance : 


P(W|> 3)=4,55 x 102, 
P(W1 > 3) = 2,70 x 103, 
P(W1 > 4) = 6,34 x 105, 
P(W1 > 5)= 5,72 x 107, 
P(W1 > 6) = 1,97 x 10. 


Une première conséquence est que dans la pratique on peut faire comme si le dépassement de 
4 ou 5 écarts-type était quasiment impossible. On peut indiquer, en anticipant sur la statistique, 
une seconde conséquence : lorsque pour l’analyse d’une situation ayant conduit à une hypo- 
thèse, l’observation se trouve à plus de 4 ou 5 écarts-type de ce qui se passerait si l'hypothèse 
était vraie, alors celle-ci peut être rejetée sans aucune précaution de langage ni état d’âme. 
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Théorème d’addition. La somme de deux variables aléatoires normales indépendantes 
Nu, 6,) et (lb, 62) est une variable aléatoire normale N{l, +1, ,/6? + 62). 


Ce résultat est fondamental dans toute la théorie du calcul des probabilités. 


Calculs numériques 


> Réduction 


Si X suit une loi normale W{u, o) et si suit la loi normale centrée réduite A/(0, 1), 
on à 
Pa<X<b)=P(£=E <w<b=h, 
G G 


ce qui permet de ramener tout calcul relatif à des valeurs de N{, 6) à des calculs sur 
les valeurs de W, que l’on peut trouver dans les tables. 
> Tables de la loi normale 


Si F est la fonction de répartition de la loi normale centrée réduite W, on trouve des 
tables notamment de F(x) = PW£ x), de 2(1-F(x)) = P(W{> x), et de la fonction 
réciproque de cette dernière : écart réduit absolu x en fonction de sa probabilité de 
dépassement © (soit donc P(W]> x) = @). 


f 


F(x) 


X —X X 


Exemple 1 On contrôle la justesse d’une balance en effectuant la pesée d’un objet-test de 
250 g exactement. Si la balance est juste, le résultat doit être représenté par une variable 
aléatoire X de loi normale W(250, 0,6). Quelle est la probabilité que le résultat de la pesée 
dépasse 251 g ? 

X-—250 | 251-250 _ 1667) où X—250 

0,6 0,6 0,6 

normale réduite. Si F est la fonction de répartition d’une v.a. normale réduite, la probabilité 
demandée est 1 — F(1,667) = 0,048. 


Exemple 2 On jette 1 000 fois une pièce « honnête », quelle est la probabilité que le 
nombre de Piles soit compris entre 490 et 510 ? 


Il faut calculer P(X > 251) = P( suit une Vv.a. 


La vraie loi du nombre X de Piles est une loi binomiale B(1 000, 0,5), qu’il est raisonnable 
d’approcher par une loi normale de même espérance et de même écart-type, soit N(500, 
15,81). On pourrait calculer P(490 < X < 510) mais on commettrait une légère erreur : X ne 
prend que des valeurs entières et il faut, dans l’approximation par la loi normale qui est 
continue, étaler une valeur entière k entre k — 0,5 et k + 0,5. Soit donc 


489,5 —500 _X—500 _ 510,5 — 500 
P(4 <X<51 = PE PU A 
Fe MODE ss 15,81 15,81 
= P(-0,664 < N< 0,664). 
On peut prendre une table de la fonction de répartition F et calculer F(0,664) — F(-0,664) = 


0,493, ou bien, comme les valeurs sont symétriques par rapport à 500, prendre une table de 
l’écart absolu (le résultat numérique est le même !). 


) 
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normale à 2 dimensions (loi)  (2-dimensional gaussian distribution) 
Loi d’un vecteur aléatoire à deux dimensions (X, Y) qui possède la propriété fondamentale 
suivante : pour tout a réel et tout b réel, la combinaison linéaire aX + bY est une v.a. normale 
(scalaire). 

Formulaire 
Cinq paramètres réels : Lx, Ly € R, 6x, 6% € R: , pe J-1,1If. 

nota : Si p, qui représente le coefficient de corrélation entre les variables « margi- 
nales» à 1 dimension, était égal à —-1 ou à 1, la loi serait « dégénérée » et sa densité 
serait nulle sauf sur une droite du plan (x, y). 

Valeurs sur les couples de réels (i.e. les vecteurs de R?). 

> Loi de probabilité 


densité 
Sin) _ _ ne. 
_. 1 ox 1 É MY _ 2 CHO-HN) , OH) } 
2r6%0y 1 — p? 2(1-p)\ 6x GxOy Gÿ 


> Valeurs caractéristiques 
Elles sont représentées de façon standard par : 


— le vecteur espérance mathématique ñ ni 
Y 


: 
: È . [or OyxO 

— et la matrice de variance-covariance x POxGy| 
2 
POxOy  Oy 


normale à p dimensions (loi)  (p-dimensional gaussian distribution) 
Synonyme multinormale (loi). 
Loi d’un vecteur aléatoire à p dimensions (X;, X>, …, X,) qui possède la propriété fondamen- 
tale suivante : pour tous a,, a;, …, a, réels, la combinaison linéaire a,X; + a,X, +... +a,X, 
est une v.a. normale (scalaire). 


Définition 
Il faut utiliser un formalisme vectoriel et matriciel : 
X: X] 
— on note X = #3 le vecteur v.a. normale à p dimensions et x = "| Je 
X x 


P. P. 
vecteur de ses composantes numériques, 
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M: E(X;) 
— on note Ex = Hi! - EF) le vecteur espérance mathématique, 
H»] [ECX,) 


on note enfin Vx = (Cov(X; Xyhi<j<p, 1<k<p la « matrice de variance- 
covariance » (qui doit être une matrice « définie positive » pour que la loi ne 
soit pas dégénérée). 

La densité de la loi de probabilité de X est : 


Post) CC RE EC -E,)Vz'œ- Es) 


nuage de points (scatter diagram, dispersion diagram) 
Dans une situation de description ou d’analyse statistique d’un échantillon ((x,, y1), (&2, yo), 
…,(Xyw Y1)) d’un couple de variables numériques, désigne à la fois l’ensemble de points de 
l’espace R? formé par l’échantillon, et sa représentation graphique dans un système d’axes. 
Cette notion peut se généraliser à un nombre quelconque de dimensions, notamment en 
analyse des données. 


numérique (numerical) 


Se dit des fonctions et des variables aléatoires qui prennent pour valeurs des nombres réels 
(incluant bien sûr et notamment les valeurs entières). 


observé, e (observed, sample) 
Lorsque cet adjectif n’est pas employé dans son sens général de la langue courante, il est syno- 
nyme d’empirique et qualifie les paramètres des distributions statistiques (moyenne observée, 
variance observée, ...), par opposition aux paramètres « théoriques » des lois de probabilités. 


odds, odds ratio 


Expressions anglaises (le mot odds signifie cote dans le monde des bookmakers) non traduites 
en français qui désignent, notamment en épidémiologie et essais cliniques, des concepts 
concurrents des concepts de . et de risque relatif. Si p est la probabilité d’un évène- 


ment, son « odds » est le quotient —=—. Ainsi, un évènement de probabilité 0,20 aura un 
« odds » de 0,25, correspondant à l'expression de « 1 chance contre 4 ». La probabilité varie 
de 0 à 1, l’ « odds » de 0 à l’infini (il est néanmoins très voisin de la probabilité lorsque celle-ci 
est faible). Étant donné un risque de référence p, et un risque p (par exemple calculé comme 


moyenne d’une série d’observations), le risque relatif est Let l’«odd ratio » le quotient de 
Po 
quotients BACSRE (très voisin du risque relatif lorsque les risques sont faibles). 
Po/( — Po) 


opérations sur les variables aléatoires 
Effet sur les indicateurs (espérance mathématique, variance, écart-type) d’un changement de 
variable affine, i.e. d’un changement d’origine (ou translation) et/ou d’échelle (ou homothétie). 


Translation de l'origine seule Changement d'échelle seul Cas général 


E(X + b) = E(X) + b E(aX ) = aE(X) E(aX + b ) = aE(X) + b 
Var(X + b) = Var(X) Var(aX) = a2Var(X) Var(aX + b) = a2Var(X) 


O{X + b) = 6(X) o(aX) = lal 6(X) 6(aX + b) = lal o(X) 


Ces formules permettent notamment d’associer à une v.a. réelle quelconque une v.a centrée 


X — E(X), d’espérance nulle, et une v.a. centrée réduite cn , d'espérance nulle et 
G 

d’écart-type égal à 1. 

Voir somme de deux variables aléatoires. 

ordinal, e 

Se dit d’une variable aléatoire ou d’une variable statistique (ou caractère) dont les valeurs 


possibles sont des éléments que l’on peut classer entre eux (auxquels donc on peut attribuer 
un numéro d’ordre ou « rang »). 


ordre (statistique d') (frank] order statistic) 
Un échantillon numérique (x, x, ..., x,) étant donné, désigne l’échantillon des valeurs 
rangées par ordre croissant. 
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paramètre (parameter) 


En mathématique, mot qui qualifie de façon générale un statut mathématique de nombre, 
intermédiaire entre celui de constante (2, T, .) et celui de variable (qui indique aussi bien un 
choix variable qu’une réelle variation spatiale ou temporelle). Un paramètre est en quelque 
sorte une variable dont on a « bloqué » la valeur pour étudier un problème, quitte à la 
« débloquer » ultérieurement. 


En calcul des probabilités, ce mot est employé pour désigner les valeurs numériques qui 
permettent de caractériser complètement une loi de probabilités. 


Enfin, ce mot est parfois utilisé comme synonyme d’indicateur numérique ou de valeur 
caractéristique (d’une distribution). Cet usage, trop ambigu (et trop voisin de l’usage précé- 
dent) est à déconseiller. 


paramétrique (test) (parametric test) 
Voir test d’hypothèse. 


parente (loi) 


Désigne parfois la loi de probabilité commune à toutes les variables aléatoires d’un échan- 
tillon. 


parente (population) 
Désigne parfois la population dont est issu un échantillon. 


Pareto (loi de) (Pareto distribution) 


Loi d’une variable aléatoire positive continue utilisée pour modéliser l’inégalité des 
richesses, imaginée en 1897 par l’économiste et statisticien italien Vilfredo Pareto. 


Formulaire 


Deux paramètres réels : & € R° (paramètre « de forme ») ; x, € R° (paramètre 
d’origine et d’échelle). 


> Loi de probabilité 


fa 
densité 
| 0 SiX<X) 
f(x) = œ(Xo CRE 
| SiX2X) 
Xo\ x 
EEE 
0 Xo x 


138 pari 


FA 
fonction de répartition 
1 0 Si X<X) 
F(x) = x\® 
1- (2) SiXZ2X) 
x 
0 X x 


> Valeurs caractéristiques 


— espérance : E(X) = = 10 (œ> 1) 

— variance : Var(X) = ———_—— (œ > 2) 
(a-1}?(a—2) 

— écart-type : o(X)= —L | X_, (> 02) 
œ—1AY(œ-2) 


> Utilisation 


Dans son utilisation économique, la v.a. de Pareto X représente le revenu d’un individu pris 
Xo\? 

au hasard, x, étant le revenu minimum (F(x) = 1 -— (2) est donc la proportion des individus 
x 

ayant un revenu inférieur ou égal à x) ; le paramètre © est généralement voisin de 2. 


| ; a ; nu X © 
Cette loi est également utilisée en décalant l’origine (F(x) = 1 — (=) (x 2 0)), de façon 
X+X 
à modéliser une situation où le revenu minimal est nul. 


En théorie, la variable aléatoire Y = in[X suit une loi exponentielle de paramètre 01. 
X6 

Ainsi cette loi, qui modélise une variable continue positive de densité décroissante, peut être 

très facilement « ajustée » grâce à son logarithme, ce qui pousse à son utilisation comme loi 

approchée dans des circonstances variées. 


pari (bet) 
Convention entre deux parties (par exemple deux joueurs dans un « jeu d’argent »), qui enga- 
gent chacune une somme d’argent, et qui se dénouera lors d’une épreuve aléatoire à venir. 
Selon le résultat de l’épreuve, l’une des parties versera à l’autre la somme convenue. Un pari 
se modélise par une variable aléatoire « gain » d’une partie (et donc « perte » de l’autre), ces 
deux mots pouvant désigner des sommes de signe quelconque. On dit que le pari est équi- 
table si l’espérance mathématique de cette variable aléatoire est nulle. 

On peut également engager des paris sur des évènements qui ne sont pas aléatoires, mais sur 
lesquels l’information n’est pas complète au moment du pari. Dans pareil cas, la modélisa- 
tion utilise la théorie probabiliste de l’information. 


partielle (coefficient de corrélation) 


Voir corrélation partielle (coefficient de). 
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partition 


Voir système complet d'évènements. 
y Ip 


Pascal (Blaise) 


Mathématicien et physicien, puis écrivain français (1623-1662). En répondant à des 
problèmes posés par le chevalier de Méré à lui-même et à Robertval, il commença l’étude 
systématique des probabilités. Il entreprit ensuite une correspondance avec Fermat sur la 
combinatoire et les probabilités et fit également des travaux en géométrie et en hydrostatique. 


Pascal (loi de) (Pascal distribution) 


Loi d’une variable aléatoire discrète « temps d’attente » du s-ième succès dans des épreuves 
répétées. 


Formulaire 


Deux paramètres réels : s (entier Z 1) qui représente le nombre de succès recherché ; 
p (0 <p< 1) qui représente une probabilité (notation standard : qg = 1 — p). 


Soit T la variable aléatoire de Pascal de paramètres s et p ; valeurs prises : s, s+1, 
S +2, … 


> Loi de probabilité 


P(T = k) = ( 1 Jpat 


> Valeurs caractéristiques 


— espérance : E(T) = À 
P 
— variance : Var(T) = . 
P 
— écart-type : G(T) = sq 
P 


> Utilisation 


La loi de Pascal est le temps d’attente du s-ième succès dans des épreuves répétées, ou dans 
des tirages « AVEC remise » (le premier temps possible est T = s). 


Une variable aléatoire de Pascal de paramètres s et p est la somme de s variables aléatoires 
géométriques de paramètre p. 


Pascal (triangle de) 


Voir triangle de Pascal. 


Pearson (Karl) 


Mathématicien britannique (1857-1936). Il établit la théorie générale de la corrélation et 
inventa le test du khi-deux. 
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permutation 

Étant donné un ensemble E de n objets, une permutation de E est une suite (ou un rangement) 
ordonnée de ces n objets. 

Si l’on suppose les n objets numérotés de 1 à n, une permutation est alors représentée par une 
suite (51, 52, …, s,), où les s; sont les chiffres de 1 à n pris dans un ordre qui caractérise la 
permutation. 


| Le nombre de permutations de n objets est n! (« factorielle » n). 


Exemple E = {a, b, c}: il y a 3! = 6 permutations de E, notées de façon simplifiée et 
| évidente : abc, acb, bac, bca, cab, cha. 


Voir arrangements sans répétition. 


plan d'expérience, plan factoriel (sample design, factorial design) 


Description du détail d’une expérimentation lorsque l’on étudie l’effet de plusieurs facteurs 
sur une variable (les facteurs étant le plus souvent supposés agir exclusivement sur l’espé- 
rance mathématique). Selon la nature de l’étude et le « coût » unitaire de l’observation, les 
plans d’expérience seront de types très divers, variant notamment par les combinaisons entre 
modalités (« niveaux ») des facteurs et le nombre de répétitions. 

Voir analyse de la variance à deux facteurs. 


plurimodale (distribution) 
Voir mode. 


Poincaré (formule de) 
Formule qui généralise la formule d’additivité : 
P(A LU B) = P(A) + P(B) - P(A NB). 


PA UAU. UE Es FO) -E, 2.3 PA NAS. 


+(-1Y PA, NA, N...nA,). 


Poisson (Simon-Denis) 


Mathématicien français (1781-1840). Il étendit plusieurs résultats du calcul des probabilités 
et fit également des travaux en physique mathématique. 


Poisson (loi de) (Poisson distribution) 


Loi d’une variable aléatoire discrète qui représente le nombre total d'évènements survenus 
jusqu’à un temps fixé dans un processus de Poisson. 


Formulaire 


Un paramètre réel positif l. 
Soit N la variable aléatoire de Poisson P(l) ; valeurs sur N. 


> Loi de probabilité 


PN=5= Len 


Fr 
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ill [1h Lu a 
4 5  … x 


> Valeurs caractéristiques 
— espérance : E(IN)=u 
— variance : Var(N)=H 
— écart-type : O(N) = Ju 


> Utilisations 


C’est la loi (exacte) du compte des évènements dans un processus poissonnien : si le taux du 
processus est À, le compte au temps f est une loi de Poisson de paramètre pl = À. 


La loi de Poisson P(np) est une approximation de la loi binomiale B(n, p) lorsque le para- 
mètre n est « grand », le paramètre p « petit », et que le produit np (égal au paramètre ui de la 
loi de Poisson) reste dans une zone « moyenne » de valeurs (à apprécier en fonction de n et 
de p). On traduit souvent cette approximation en disant que la loi de Poisson est la loi de 
compte des évènements « rares ». 


Théorème d’addition. La somme de deux variables aléatoires de Poisson indépen- 
dantes P (u,) et P(l) est une variable aléatoire de Poisson P(l; + bb). 


Exemple T1 (processus poissonnien). On suppose que, dans un process industriel, il se 
produit en moyenne un incident tous les 3 jours. Quelle est la probabilité P qu’il y ait au 
moins 2 incidents dans une journée ? 


On peut supposer que la survenue des incidents est un processus de Poisson. Le taux 
journalier est de 1/3. Si X est la v.a. de Poisson de paramètre 1 = 1/3, l'évènement « au 
moins 2 incidents dans une journée » est le complémentaire de «0 ou 1 incident dans une 


0 il 
CE $ CE is = Se 1/3 = 0,955. 


La probabilité demandée est donc P = 1 — 0,955 = 0,045. 


Exemple 2 (évènements rares — microbiologie). On désire contrôler la faible concentration 
en bactéries d’une solution. Pour cela on prend 1 m1 de la solution que l’on dilue 20 fois, 
puis on prélève dans la solution diluée 20 gouttes de 10 ul chacune avec lesquelles on 
ensemence 20 boîtes de Petri. Au bout de 48 h, on constate que des colonies de bactéries se 
sont développées dans 14 des 20 boîtes de Petri. Peut-on en déduire la concentration en 
bactéries de la solution mère ? 


journée», de probabilité P(X = 0) + P(X = 1) = ( 


Si v est le nombre moyen de bactéries par goutte de 10 ul, et X la v.a. nombre de bactéries par 


0 
goutte, X suit une loi de Poisson de paramètre v. On a donc P(X = 0) = M = eV. Or on 


connaît une estimation expérimentale de cette probabilité : + = 0,3. On en déduit v = -In 0,3 


= 1,20, puis, en multipliant par 100 (rapport entre 1 ml et 10 pl) puis par 20 (dilution), la 
concentration de la solution mère : 2 400 bactéries par ml. 


142 Poisson (processus de), poissonnien (processus) 


Poisson (processus de), (Poisson process, Poisson trials) 
poissonnien (processus) 


Modèle mathématique décrivant et caractérisant la réalisation d'évènements aléatoires indé- 
pendants se succédant au cours du temps : des arrivées, des naissances, des pannes ou 
défaillances ou incidents, des désintégrations, des décès... Parmi tous les processus, celui de 
Poisson peut se caractériser de diverses façons, dont la principale pour l’utilisateur est d’être 
« sans vieillissement » (ou « sans mémoire »). 

Un processus de Poisson fait intervenir en premier lieu la suite croissante des temps 
d'arrivée : T;, T;, …, T,, … , à laquelle on peut associer les intervalles T,, T,—T;, …, 
T,,1-T,, .… qui sont des variables aléatoires continues positives. 


N(® à 
+ EE 
l 
3+ “| 
Il l 
2+ nn l 
| | | 
1+ el | | 
| | l | 
————Î_—— L 1 L > 
0 T D T; .…. t 


À cette suite de temps d’arrivée (on posera T, = 0 par convention), on associe une « fonction 

aléatoire » croissante de « comptage » N(#) qui est, pour chaque 1 Z 0, une variable aléatoire 

discrète à valeurs entières positives (on dit aussi que N(f) est une « famille » de variables 

aléatoires) : N(9 fait un saut de 1 chaque fois que f franchit une valeur T, (ainsi N(f) = n pour 

lE [T,, T, + 1D- 

Vu du point de vue des intervalles entre les temps d’arrivée, le processus de Poisson est 

caractérisé par deux propriétés, d’une part que les va. T;, T,-T;,...,T,,,-—T,,. sont indé- 

pendantes et de même loi, d’autre part que cette loi commune est une loi exponentielle de 

paramètre À (appelé le taux du processus). On prendra garde que, pour À > 2, les différences 

T,,:,-T, (en particulier T, =T,,,-T,) ne suivent pas une loi exponentielle mais une loi 

d’Erlang ! 

Vu du point de vue de la fonction de comptage N(f), le processus de Poisson est caractérisé 

par un ensemble de trois propriétés portant sur les probabilités d’accroissement de N(?) : 

— P(N( + u) = N(r) + k)) ne dépend ni de f ni de N(f), mais seulement de u et de k ; 

— P(N(G + Ôr) = N(r) + 1)) est équivalent à À Ôf lorsque Ôf tend vers 0 ; 

— P(N( + 6) > N() + 2)) est o(ôr) lorsque ôf tend vers 0 (la notation « o(ôf) » signifie « tend 
vers 0 plus vite que ôf »). 

En d’autres termes, entre f et { + Ôr (Ôt très petit), la fonction de comptage a une probabilité 

voisine de 1 — À Ôr de rester constante, une probabilité voisine de À Ôf d'augmenter de 1, et 

une probabilité infime d’augmenter de plus de 1. 

Le paramètre Li de la loi de Poisson suivie par N(r) est égal à Ar. 

Dans une caractérisation mathématique rigoureuse du processus de Poisson, on établit 

l’équivalence entre les propriétés des temps d’arrivée et les propriétés du processus de comp- 

tage associé. 

Pour les temps d'arrivée : le processus de Poisson est caractérisé par les deux propriétés : 

— les va.T;,, T;,-T,,..,T,,,-—T,,.. sont indépendantes, et les v.a. T, -T;,,..,T,,,-T,, 
… Sont positives et de même loi (on dit que l’on a un « processus de renouvellement ») ; 

— les va. T,, T,-T,,…., T,,,-—T,, … suivent toutes une même loi exponentielle de para- 
mètre À. 
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Pour le processus de comptage N(r), noté plutôt N, : le processus de Poisson est caractérisé 
par les deux propriétés : 


— le processus est « à accroissements indépendants » : pour toute suite croissante 0 = f, < f; 


<… <1,, les ñn variables aléatoires N ie N ty, SONt indépendantes ; 


— pour tout f et tout , la variable aléatoire entière N,, ,, — N, suit une loi de Poisson de para- 
mètre | = Àu (dans certaines présentations, cette deuxième propriété est elle-même 
découpée en trois propriétés moins explicites dont l’ensemble force le couple loi exponen- 
tielle — loi de Poisson). 


Pélya (loi de) 


Voir binomiale négative (loi). 


polygone des effectifs / des fréquences (frequency polygon) 


Procédé de « lissage » polygonal d’un histogramme : on ajoute aux deux extrémités de 
l’histogramme des classes d’effectif ou de fréquence nulle, et on trace le polygone qui joint 
les milieux successifs des sommets des rectangles qui figurent les classes. De cette façon, 
l’aire totale sous le polygone est égale à l’aire totale de l’histogramme, de façon à respecter 
la proportionnalité des aires aux effectifs ou aux fréquences qui caractérise les histogrammes 
(cf. 3° figure ci-dessous). 

Pour obtenir cette conservation de l’aire, il est impératif que toutes les classes soient de 
largeur égale (si ce n’est pas le cas, il faut subdiviser artificiellement les classes les plus 
larges pour obtenir l’égalité de toutes les largeurs). 


FN à — D t LE AS 


population (population) 


Ensemble de référence, dans lequel seront pris des individus ou des échantillons d'individus. 
Il ne faut pas prendre population et individus au sens biologique de ces mots, il s’agit ici de 
tout ensemble d’« objets (ou unités) statistiques », valeurs numériques, mots, documents, 
biens matériels, faits ou phénomènes, …, mais incluant bien sûr individus biologiques, 
notamment êtres humains. 


Cette notion est le concept statistique correspondant au concept probabiliste d’espace fonda- 
mental. 


Exemple 1 Le corpus des mots anglais du vocabulaire technique de l’industrie chimique. 
Exemple 2 Le parc des automobiles européennes en circulation au 1° janvier 2004. 


Exemple 3 L'ensemble des habitants de la commune de Bègles en Gironde enregistrés lors 
du recensement de mars 1999. 
pourcentage (percentage) 


Manière de nommer et d’écrire un nombre réel positif dans un contexte particulier (taux 
d’accroissement, grandeur économique, fréquence, probabilité, ..). 
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Pour parler de l’estimation, de l’intervalle de confiance et du test de Student relatifs à une 
probabilité, un vocabulaire encore très employé utilise « pourcentage » à la place de 
« probabilité ». 


prédiction, prédiction (intervalle de) (prediction interval) 


On considère un couple (X, Y) de variables numériques, soit dans une situation de modèle 
linéaire (X est alors un ensemble {x;} de valeurs « maîtrisées » et Y un ensemble {Y;} de 
variables aléatoires normales associées), soit dans une situation de régression linéaire ((X, Y) 
est alors un couple de v.a. qui suit une loi normale à 2 dimensions). On peut définir dans l’un 
et l’autre cas la droite de régression théorique y = & + fix, et estimer les coefficients a et b de 
la droite de régression empirique y = a + bx. 

On peut alors prédire la valeur de Y lorsque l’on donne X = x. L'intérêt majeur est bien 
entendu dans le cadre du modèle linéaire, où la variable x est contrôlée. La valeur ponctuelle 
de la prédiction est l’espérance mathématique (conditionnelle) empirique y = a + bx. 

Si l’on veut donner l’analogue d’un intervalle de confiance, le problème est mixte et il faut 
tenir compte à la fois de l’incertitude sur l’estimation de l’espérance (mesurée par la variance 
propre de cette espérance : variance expliquée par la régression, cf. plus haut) et de la varia- 
bilité d’une valeur individuelle (mesurée par la variance résiduelle). On obtient ainsi un 
«intervalle de prévision ou de prédiction ». 


Valeur « probable » de y en fonction de x 


_ x)2 — — = 
Sis, = PC a T0 en) 


n i=n s, s, 
D (x;- 1) ‘ ‘ 
i=1 

une loi de Student à n — 2 degrés de liberté. 


suit 


On notera que l’imprécision augmente assez rapidement lorsque l’on extrapole en dehors de 
la zone des abscisses des points observés. 


Voir aussi décomposition de la variance. 


presque sûrement (almost certainly) 


Locution utilisée lorqu’un évènement d’un espace probabilisé (Q, À, P), a priori différent 
de Q, possède une probabilité égale à 1. Par exemple, dans l’espace qui représente une infi- 
nité de parties indépendantes de Pile ou Face, l’évènement « au moins une fois F » est de 
probabilité égale à 1 quoiqu'il ne soit pas « logiquement » certain : on peut imaginer que l’on 
ait PPPPP... indéfiniment (on peut imaginer... mais la probabilité est nulle !). 


prévalence (prevalence) 


Terme de statistique médicale, qui désigne la proportion d’individus atteints d’une affection 
à un moment donné dans une population (anglicisme). 


prévision, prévision (intervalle de) 
Voir prédiction. 


probabilité (probability) 
Nombre réel, compris entre 0 et 1, attribué à un évènement. 
Voir mesure de probabilité. 
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probabilités (calcul des)  (probability theory, theory of probabilities) 


Branche des mathématiques qui définit les concepts et les outils fondamentaux adaptés à la 
modélisation des phénomènes aléatoires, qui élabore une « panoplie » étendue de modèles 
(« lois ») adaptés aux diverses situations concrètes à représenter, et qui énonce et démontre 
les théorèmes de convergence relatifs à la répétition des expériences aléatoires. 


Les théorèmes de convergence (« loi » des grands nombres, théorème central limite ...) 
permettent ensuite de relier le calcul des probabilités et l’analyse statistique (statistique 
« inférentielle »). 


probabilités combinatoires  (combinatorial [theory of] probabilities) 


Partie du calcul des probabilités qui étudie les espaces finis et équiprobabilisés. La détermi- 
nation des probabilités se ramène alors à des comptes d'évènements élémentaires et utilise 
intensivement les dénombrements étudiés en analyse combinatoire. 


probabilité conditionnelle 
Voir conditionnelle (probabilité). 


probabilités composées (formule des) 
Voir composées (formule des probabilités). 


probit (transformation en) (probit transformation) 


Transformation appliquée à la fonction de répartition empirique d’une distribution statistique 
d’un échantillon d’une variable aléatoire normale, qui permet de représenter graphiquement 
cette fonction de répartition par une droite. 


Voir droite de Henry. 


processus [aléatoire], processus stochastique  (stochastic process) 


Concept du calcul des probabilités qui fournit un cadre général pour l’étude des suites 
temporelles de variables aléatoires. On peut considérer qu’un processus aléatoire est une 
« fonction aléatoire » où la variable est le temps. Plutôt que d’écrire f{r), la « valeur » de f{r) 
étant une variable aléatoire, on écrit généralement (X,) lorsque le temps est discret (et on 
parle de la suite (X,) de v.a), ou bien (X,;) lorsque le temps est continu (et on parle de la 
famille (X,) de v.a). Les valeurs prises par le processus sont les éléments d’un ensemble &, 
appelé « espace des états » du processus, et qui peut être fini, dénombrable ou infini continu. 
Une « réalisation » du processus, i.e. une suite (discrète ou continues) de valeurs prises 
s’appelle une trajectoire. 


Exemple 1 On considère une suite de parties de Pile ou Face indépendantes et on note S, 


le nombre de Pile (par exemple) après la n-ième partie. La suite croissante (S,) est un 
processus à temps discrets et à valeurs discrètes appelé processus ou schéma de Bernoulli. 


Exemple 2 On considère une « particule » sur une droite qui part de l’origine et qui, à 
chaque unité de temps, effectue un saut de 1 vers la droite ou vers la gauche avec égales 


probabilités ; . On note X, l’abscisse atteinte à l’instant n. La suite (X,) est un processus à 


temps discrets et à valeurs discrètes appelé marche aléatoire (ce processus est très proche 
d’un processus de Bernoulli et la principale différence est dans la présentation). 


Exemple 3 On considère un ensemble de « particules ». À chaque unité de temps (qui 
représente une « génération »), chaque particule « engendre », de façon indépendante et 
selon une loi de probabilité fixée, un certain nombre de « descendants ». On note A, le 
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nombre de particules à la génération n. La suite (A,) est un processus à temps discrets et à 
valeurs discrètes appelé processus de branchement où processus de Galton-Watson. 


Exemple 4 On considère une succession de «pannes », modélisée par une famille 
croissante (N,) de variables aléatoires : pour chaque temps f, la valeur de N, est égale au 
nombre total de pannes survenues entre 0 et r. Si l’accroissement de N, vérifie un certain 
nombre de règles mathématiques qui modélisent la survenue de pannes à taux constant et 
«sans mémoire », la famille (N,) est un processus à temps continus et à valeurs discrètes 
appelé processus de Poisson. 


Exemple 5 On considère une généralisation de la marche aléatoire, à temps continus et à 
valeurs dans un espace géométrique (R, R?, R3, ...), et on appelle X(r) la position de la 
« particule » à l’instant f. On dit que ce processus (partant de l’origine à l’instant 0) est un 
mouvement brownien s’il vérifie les deux propriétés : 1° il est à « accroissements indépendants 
et stationnaires » (les lois de X(r,) — X(,) sont indépendantes et ne dépendent que de f, —t;) ; 
2° pour tout f la loi de X(r) est une loi normale centrée en 0 et d’« extension » proportionnelle 


à 4/ (dans le cas de la dimension 1, cela veut dire loi normale « ordinaire » d’écart-type 


proportionnel à Nt , dans le cas général, cela veut dire loi normale « multidimensionnelle » de 
« matrice de variance-covariance » proportionnelle à #). 


Voir chaîne de Markov. 


processus de Bernoulli 


Voir Bernoulli (schéma de). 


processus de Poisson 


Voir Poisson (processus de). 


produit de deux variables aléatoires (réelles) 


Des formules générales existent pour les probabilités et les densités, mais on se limitera ici 


au cas de v.a. indépendantes. 
Variables aléatoires réelles discrètes et indépendantes 


On suppose X définie par l’ensemble {x;} des valeurs prises et par les probabilités 
ponctuelles p;= P(X = x;). 

On suppose Y définie par l’ensemble {y;} des valeurs prises et par les probabilités 
ponctuelles g;= P(Y = y;). 

On pose Z = XY. 

Formule 1 : 


== >» Piq; 


DAPEE 
(comprendre : sommer sur l’ensemble des couples (5, j) tels que x; y; = 2). 
Formule 2 équivalente : 


PZ=2)= Ÿ P(X= x;)P Y=2) 
G=D= XPO= x)P(Y 22 
(comprendre : prendre P(Y = _. = P(Y = y; lorqu’il existe une valeur y; telle que 
Y;= Z, prendre P(Y = Z) = 0 lorsqu'il n’en existe pas). 
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Variables aléatoires absolument continues et indépendantes 


On suppose X définie par sa densité f{x). 
On suppose Y définie par sa densité g(y). 
On pose Z = XY. 

La densité A(z) de Z est donnée par : 


h(2) = [rœ(2)E = [86 MG} 


(nota : si X et/ou Y prend ses valeurs sur une partie seulement de R, avec donc sa 
densité nulle à l’extérieur, ne pas oublier de réduire en conséquence l’intervalle 
d’intégration). 


Exemple On considère deux va. X, et X, uniformes sur [0, 1] et on définit leur produit 
Z=X, X:. Donner la densité de probabilité h de Z. 

Les densités f, et f, de X, et X, sont nulles hors de l’intervalle [0, 1) et égales à 1 sur cet 
intervalle. Donc le facteur f,(x) restreint l'intervalle d’intégration à [0, 1] et oblige z à 


appartenir également à cet intervalle (pour que A(z) soit Z 0). Le facteur ré ) restreint quant 
x 


à lui l'intervalle d’intégration à [z, 1]. On en déduit finalement la valeur de la densité : 


1 
helene 0ées 
À 


d’où l’on peut déduire l’expression de la fonction de répartition : 


0 si z <0 
H(z) = 4z-zInz si0<z<1 

1 siz>l 

Indicateurs 


Aucune propriété dans le cas général. 
Cas où X et Y sont indépendantes : 
E(XY) = E(X) E(Y). 


Voir opérations sur les variables aléatoires. 


produit d'espaces probabilisés (product of probability spaces) 
Concept permettant de modéliser efficacement l’étude globale de la survenue (simultanée ou 
séquentielle) de plusieurs phénomènes aléatoires. 

On disjoindra le cas discret du cas général. 


> Cas discret 
Soient (Q,, P(Q,), P,) et (Q@, P(Q), P;) deux espaces probabilisés discrets (1e. finis ou 
dénombrables). On se place dans la situation standard où les tribus sont les ensembles de 
toutes les parties. On définit l’espace probabilisé produit avec : 
— pour espace fondamental le produit cartésien Q; x Q;, 
— pour tribu d'évènements l’ensemble de toutes les parties P(Q, x Q2,), 
— pour mesure de probabilité la mesure P définie par : 
Vx;e Q, Vy;e Q, P((x; y) = P1(GXx) PO). 
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Cette indépendance « ponctuelle » entraîne l’indépendance générale : 
VA;CQ, VB;,cOQ, P(A;x B;) = P;(A;) P,(B). 
Exemple Si Q, = Q est l’espace fondamental à 6 évènements élémentaires qui représente le 
lancement d’un premier dé, et Q, = Q est l’espace fondamental à 6 évènements élémentaires 
qui représente le lancement d’un deuxième dé, le produit cartésien Q, x Q, = Q? représente 
le lancement des 2 dés. Il contient 6 x 6 = 36 évènements élémentaires. Et l’équiprobabilité 
L 
36 
Cette construction se généralise sans difficulté à un nombre fini d’espaces probabilisés 
discrets. 


Vi Vj PG@;) = P() = ë entraîne l’équiprobabilité V (à, j) P((x;, y;)) = 


> Cas général 
Soient (Q,, A, P,) et (Q;, 4;, P,) deux espaces probabilisés quelconques. On définit l’espace 
probabilisé produit avec : 
— pour espace fondamental le produit cartésien Q, x Q,, 
— pour tribu d'évènements la « tribu produit » (notée À, @ À,), qui est la tribu engendrée 

par les produits cartésiens A; x B;, pour A;e A,, B;e AÀ;, 
— pour mesure de probabilité la mesure P (parfois notée P, @ P;) caractérisée par : 

VA;e A, VB;e A, P(A;x B;) = P;(A;) P(B)). 

Cette mesure est faite pour rendre indépendants les évènements « qui ne dépendent que du 
premier espace » avec les évènements « qui ne dépendent que du deuxième espace », et c’est 
un résultat mathématique essentiel de montrer qu’elle existe et est unique. 
Cette construction se généralise sans difficulté à un nombre fini d’espaces probabilisés, mais 
le problème se complique lorsque l’on veut effectuer le produit d’un nombre infini d’espaces 
probabilisés (discrets ou non), de manière à donner un cadre convenable à l’étude des suites 
infinies (@,, ©), …, @,, …). La théorie mathématique qui permet de construire ce cadre repose 
sur la considération privilégiée des évènements « observables », qui ne font intervenir qu’un 
nombre fini d'indices. 


puissance [d'un test] (power [of a test], strenght) 
Désigne, pour un test d’hypothèse, la probabilité de rejet justifié de l’hypothèse H, (le 
contraire, non-rejet de H, alors qu’elle est fausse, est le risque de manque de puissance, 
appelé aussi risque de seconde espèce). 

Lorsque l’hypothèse H, est du type « 8 = 8, », où 6 est un paramètre de la loi testée, la puis- 
sance est une fonction de la vraie valeur 6 du paramètre, d’autant plus voisine de 1 que 6 est 
éloigné de 6,. 


pyramide des âges (age pyramid) 
Double histogramme en miroir représentant 7. 
pour les hommes et pour les femmes la distribu- ” 90 F 
tion du caractère « âge ». Dans sa version tradi- 80 | 
tionnelle, la pyramide des âges est figurée avec | L 
permutation de l’orientation des axes : l’axe des : 
abscisses (pour l’âge en années, ou l’année de F 
naissance, selon la présentation) est vertical, et 30 
l’axe des ordonnées (pour le nombre ou la 20 
proportion des personnes, ce qui revient visuel- 10 
0 


lement au même) est horizontal. L 
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qualitatif, ive 

Se dit d’une variable aléatoire ou d’une variable statistique (ou caractère) dont les valeurs 
possibles — souvent appelées dans ce cas « modalités » — sont des éléments d’un ensemble 
sur lequel on ne peut pas effectuer d’opération mathématique (addition notamment). Il arrive 
néanmoins qu’un codage d’une variable qualitative donne à ses modalités l’apparence de 
nombres. 


quantile [d'ordre a] (quantile [of order a], «-quantile) 
Indicateur de position attaché à une variable aléatoire réelle, utilisé essentiellement en statis- 
tique. Concrètement le quantile d’ordre © est la (ou une des …) valeur qui partage la série des 
valeurs en deux parties de fractions & et 1 — & de l’effectif total. Certains quantiles portent 
des noms spécifiques : quartiles, déciles, centiles. 

Si la signification concrète des quantiles est simple et « parlante », la traduction formelle est 
plus délicate. On adaptera sans difficulté le formulaire détaillé pour la médiane. 

Synonyme de fractile [d'ordre &]. 


quantitatif, ive 

Se dit d’une variable aléatoire ou d’une variable statistique (ou caractère) dont les valeurs 
possibles sont des « grandeurs », éléments d’un ensemble mathématique, de nombres ou de 
vecteurs le plus souvent, sur lequel peut effectuer des opérations mathématiques, des addi- 
tions notamment (ce qui permet de définir espérance mathématique ou moyenne, etc.). 

On peut ou non considérer comme des variables quantitatives les variables « ordinales », 
dont les valeurs possibles sont des éléments que l’on peut classer entre eux (auxquels donc 
on peut attribuer un numéro d’ordre). 


quantité d'information 
Voir information (quantité d’). 


quartile (quartile) 
Indicateur de position attaché à une variable aléatoire réelle. Concrètement c’est la (ou une 
des …) valeur qui partage la distribution (en probabilités) ou la série des valeurs (en statis- 
tique) en deux parties de probabilités 0,25 et 0,75, ou d’effectif 25 % et 75 % de l'effectif 
total. On parle parfois de quartile inférieur et de quartile supérieur. 

Si la signification concrète des quartiles est simple et « parlante », la traduction formelle est 
plus délicate. On adaptera sans difficulté le formulaire détaillé pour la médiane. 


Quételet (Adolphe) 


Astronome et mathématicien belge (1796-1874). Il appliqua les probabilités aux sciences 
humaines et à l’anthropométrie et fonda la statistique sur le calcul des probabilités. 
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quotient de deux variables aléatoires (réelles) (quotientof 
random variables) 


Seul le cas absolument continu possède des applications pratiques. En outre, quoique des 
formules générales existent, on se limitera ici au cas de v.a. indépendantes. 


Variables aléatoires absolument continues et indépendantes 


On suppose X définie par sa densité (x), et on pose F(x) sa fonction de répartition. 
On suppose Y définie par sa densité g(y), et on pose G(y) sa fonction de répartition. 


On pose Z = _ : 
Y 
La densité A(z) de Z est donnée par : 
kQ= | foDebidy. 


(Nota : si X et/ou Y prend ses valeurs sur une partie seulement de R, avec donc sa 
densité nulle à l’extérieur, ne pas oublier de réduire en conséquence l'intervalle 
d'intégration.) 
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randomisation (randomization) 


Introduction volontaire d’un élément aléatoire dans un processus (au sens courant du mot). 
Procédé utilisé en médecine pour les tests de comparaison d’efficacité de deux traitements 
d’une pathologie : pour éviter toute perturbation du test notamment par effet placebo, on tire 
au sort le traitement donné à chaque patient. 


rangs (coefficient de corrélation des) 


Voir corrélation des rangs (coefficient de). 


rapport de corrélation 


Voir corrélation (rapport de). 


rapport des variances (test du) 
Voir Fisher-Snedecor (test de). 


Rayleigh (loi de) (Rayleigh distribution) 


Loi d’une variable aléatoire continue qui peut être définie comme la racine carrée de la 
somme des carrés de deux variables aléatoires normales indépendantes Y, et Y;, centrées et 


de même écart-type : 
= Vi t, 


Formulaire 


Un paramètre réel : c e R° (qui est l’écart-type des v.a. normales indépendantes Y, 
et Y)). 


> Loi de probabilité 


À À 
f F 


0 c E(x) x 0 x 


densité fonction de répartition 


fo = Texpf-©) (x>0) F(x) = [roar (x>0) 


L 
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> Valeurs caractéristiques 
— espérance : E(X) = cf = 1,253c 


— variance : Var(X) = Le = 0,429c2 


— écart-type : O(X) = l£ à Te 2 0,655c 


> Utilisations 


De par sa définition même, la loi de Rayleigh est la loi de la distance à l’origine d’un point 
aléatoire d’un plan, dont les coordonnées sont deux variables aléatoires normales indépen- 
dantes, centrées et de même écart-type. 

Dans la pratique, la loi de Rayleigh est utilisée par les spécialistes de théorie du signal pour 
étudier le filtrage d’un « bruit gaussien ». 

C’est enfin un cas particulier de la loi de Weibull (pour la valeur B = 2 du paramètre de 
forme) ; à ce titre elle est utilisée en théorie de la fiabilité des systèmes. 

Voir Maxwell (loi de). 


recensement ([complete] census) 
Recueil de données sur la totalité des individus d’une population. 


rectangulaire (loi) (rectangular distribution) 


Voir uniforme continue (loi). 


réduit (écart) 


Voir écart réduit. 


réduite (variable aléatoire) 


Se dit d’une variable aléatoire X dont l’écart-type est égal à 1. Dans la pratique, on ne consi- 
dère que rarement des variables aléatoires réduites mais non centrées. 
Voir centrée réduite (variable aléatoire). 


réel (nombre) (real) 


Nombre « ordinaire », tel que 19, -1, 2 ,e-0%,0,123456789, À. 0.875, 3... 


Dans des expressions telles que « fonction réelle » ou « variable aléatoire réelle », les adjec- 
tifs « réel(le) » et « numérique » sont entièrement synonymes. 


région d'acceptation (acceptance region) 


Voir région critique. 


région critique (critical region) 
On considère un test d’hypothèse, auquel est associé une hypothèse H, et une « variable de 
test » ou « variable de décision » T à valeurs dans un ensemble E (le plus souvent R ou R.). 
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Étant donné un risque ot, la procédure de test définit une région W = W(@) de E : si la valeur 
observée de T appartient à W, on rejette H,, si T n’appartient pas à W (donc appartient à la 
région complémentaire), on ne rejette pas H,,. On appelle W région critique (pour le test 
considéré et le niveau ©), et son complémentaire région d'acceptation. 


régression 


Voir courbe de régression, droite de régression, décomposition de la variance, loi des esti- 
mateurs dans une régression et intervalle de confiance, prédiction. 


régression à deux variables explicatives 


On se limite à donner ci-dessous les formules relatives à la régression linéaire à deux varia- 
bles explicatives, les formules les plus générales — qui utilisent nécessairement le formalisme 
matriciel — pourront être trouvées dans les ouvrages spécialisés. 

On suppose que l’on a un triplet (X;, X), YŸ) de variables aléatoires qui suit une loi normale à 
3 dimensions, X., et X, sont les variables « explicatives » et Y la variable « dépendante ». On a 
Y=a+f6,X,+6,X,+E, où E est une variable aléatoire globale « écart »; l’espérance condi- 
tionnelle est une fonction linéaire (affine) de x : E(YIX, = x, et X, = x,) = & + fx, + B,x, et 
la variance conditionnelle est la constante o2. 


Formulaire 


Cas d’un échantillon observé de n triplets de valeurs numériques ((x,,, X1, 1), 
(Xi, 222» M2), vs in An Yn))- 
Les estimations (non biaisées) a, b, et b, de ©, B, et B, sont les solutions du système : 


an + CDET + b,Ÿ x; L >»: 
aÿ x; + bY xt; + bY Xi; = D x: 
aY x; + DD x Es bY 3x3; D] 


Une estimation non biaisée de la variance résiduelle ©? est : 


i=n 


DO: (a+bixii+ Dix)? 
i=1 


5 1 
n —3 


S 


régression, régression linéaire (regression, linear regression) 


Méthode de représentation géométrique et d’analyse statistique d’une situation probabiliste 
ou statistique « bidimensionnelle » ou « multidimensionnelle ». Dans le cas simple à deux 
variables, la situation décrite et analysée par la régression est celle d’un couple (X, Y) de 
variables aléatoires qui suit a priori une loi normale à 2 dimensions. La variable X est 
souvent appelée « explicative » et la variable Y « dépendante ». La régression linéaire ajuste 
la liaison entre les deux variables par une relation Y = a + bX + E, où E est une variable aléa- 
toire « écart » (qui est normale à 1 dimension). Le problème fondamental est de rechercher 
les valeurs des coefficients numériques a et b qui minimisent — en un sens approprié de ce 
mot — l’écart E. Simultanément, les coefficients a et b sont ceux de la droite de régression 
y=E(YIX = x) = a + bx, qui est, si l'hypothèse de linéarité est correcte, la courbe de régres- 
sion. 

Le cas général, où la liaison est de la forme Y = a + bf(X) + E, avec f fixée (et E normale), est 
le plus souvent traité par adaptation du cas linéaire, qui reste le cas fondamental. 
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Danns le cas multiple à p + 1 variables (p 2 2), il y a p variables « explicatives » X,, et la 
haison entre ces p variables et la (p + 1)-ième variable « dépendante » est ajustée par une 
relation Y =a+b;X;+...+b,X,+E, où E est une variable aléatoire « écart » (a priori gaus- 
sienne). Le problème fondamental est de rechercher les valeurs des coefficients numériques 
a, bi, …, b, qui minimisent — en un sens approprié de ce mot — globalement l’écart E. 

Le cas général est, comme précédemment, le plus souvent traité par adaptation du cas 
linéaire. 

Voir droite de régression linéaire, corrélation (rapport de), corrélation multiple (coefficient 


de). 


répartition (fonction de) (distribution function) 
Fonction réelle F associée à toute variable aléatoire réelle X : 

F(x) = P(X < x). 
Cette fonction est croissante (au sens large) et varie de 0 pour x = — c à 1 pour x = ce. Si X 
est une v.a. discrète, elle varie par sauts, si X est une v.a. continue, elle varie continuement. 


F&) À FGx) À 
Ti--- -- - - - a 1 … 
a 
0 ! 
0 x; x 0 x 
cas discret fini cas continu 


fonction de répartition 


Si X est discrète, caractérisée par l’ensemble (fini ou dénombrable) de valeurs {x;}, 
avec les probabilités ponctuelles p; = P(X = x;) , on a: 


FG) = D Pi ? 


(selon les cas, il s’agira d’une somme finie ou d’une somme infinie). 
Si X est absolument continue, caractérisée par la densité de probabilité f(x), on a : 


F@ = l ftodr 


Certains manuels définissent la fonction de répartition comme la probabilité P(X < x), la 
différence est minime (et même nulle lorsque la v.a. est continue). 

La notion de fonction de répartition se généralise naturellement et sans difficulté à un couple 
puis à un « n-uple » de variables aléatoires réelles. 


répétées (épreuves) 


Voir épreuves répétées. 


représentatif (échantillon) 


Voir échantillon représentatif. 


résumé numérique 


Voir indicateur. 
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réunion (logical sum) 
Dans la formalisation ensembliste des espaces probabilisables, les évènements sont des 
parties de l’espace fondamental Q. Si l’on considère deux évènements A, B, leur réunion 
A U B est un évènement dont la réalisation correspond à la disjonction logique « À ou B » : 


HE AUB&S(wHE Aoude B) 


Cela se généralise sans difficulté à un nombre supérieur d'évènements. Les deux notations 
ensembliste et logique : À LU B, A ou B, sont parfaitement synonymes. 


Exemple On considère le tirage d’une carte dans un jeu ordinaire de 52 cartes. La réunion 
de l’évènement A = « trèfle » (13 évènements élémentaires) et de l’évènement B = « Roi » 
(4 évènements élémentaires) comprend 16 évènements élémentaires : les 12 trèfles autres 
que le Roi, le Roi de trèfle, et les 3 Rois autres que celui de trèfle. 


On voit sur cet exemple que le connecteur logique « ou » tel qu’il est codifié par la logique 
mathématique, et contrairement à certains de ses usages dans la langue courante, est non 
exclusif. Les évènements A et B ne sont pas exclusifs (en termes ensemblistes : ne sont pas 
disjoints), et l'évènement « Roi de trèfle », qui leur est commun, appartient à leur réunion. 


Si À et B sont disjoints : P(A LU B) = P(A) + P(B). 
De façon générale : P(A LU B) = P(A) + P(B) - P(A NB). 


Voir Poincaré (formule de). 
Synonyme de disjonction logique. 


risque de première espèce, (risk of the first kind, 
de deuxième espèce of the second kind) 


Pour un test d’hypothèse, le risque de première espèce (ou risque d’« erreur »), généralement 
noté &, est le risque de rejet à tort de l’hypothèse H, lorsqu'elle est vraie. Le risque de 
deuxième espèce (ou risque de « « manque de puissance » »), généralement noté f, est le 
risque de non-rejet de l’hypothèse H, lorsqu'elle est fausse. 


robuste, robustesse [d'un test] (robust, robustness [of a test]) 


Qualité d’un test d’hypothèse qui lui permet de rester applicable lorsque les conditions nomi- 
nales de son utilisation (notammment loi de probabilité et taille de l’échantillon) ne sont pas 
pas vérifiées. Bien entendu, cet écart des conditions nominales doit rester dans des limites 
raisonnables (et qui peuvent d’ailleurs être précisées). 


schéma de Bernoulli 
Voir Bernoulli (schéma de). 


série chronologique, série temporelle (time serie) 
Série statistique qui donne l’évolution d’un caractère numérique Y en fonction du temps T. 
Une telle série peut se présenter, soit sous l’aspect d’une série double ((7;, f,)), soit, lorsque le 
temps prend des valeurs régulièrement espacées, sous l’aspect d’une série simple (y;) où 
l’indice représente le temps avec pour unité l’espacement constant. Dans l’un et l’autre cas, 
les graphiques portent le temps en abscisse et le caractère Y en ordonnée. 
Le problème fondamental de l’analyse statistique des séries chronologiques est de décom- 
poser la série en trois ou quatre composantes adaptées aux facteurs de variation. Dans le 
modèle additif, y; est la somme de ces composantes, dans le modèle multiplicatif (fréquent en 
économie), y; est le produit des composantes. Comme on peut ramener le modèle multipli- 
catif au modèle additif en prenant le logarithme des valeurs (et, graphiquement, en utilisant 
une échelle « semi-logarithmique »), on présentera ci-dessous la problématique de l’analyse 
des séries chronologiques sur le modèle additif. On écrit : 

Di= JG) = fG) + SG) + e(r;). 
Le terme f{r;) s'appelle la tendance (trend). I se détermine à partir d’une hypothèse sur sa 
« forme ». Dans le modèle additif, on suppose le plus souvent que la tendance est linéaire 
(affine) : f(r;) = a + bt;, on calcule ses coefficients a et b par ajustement linéaire. À la tendance 
peut s’ajouter un (ou plusieurs) cycle(s) de périodes longues, difficiles à isoler tant sur le plan 
théorique que sur le plan pratique (il faut notamment disposer de statistiques sur une une très 
grande durée). 
Le terme S(f,) s’appelle la variation saisonnière. Elle doit satisfaire aux deux contraintes d’être 
de moyenne nulle sur une année et de se répéter identiquement d’année en année. On la déter- 
mine en considérant, après calcul de la tendance, la différence y(7,) — f{r;). Diverses méthodes 
peuvent être utilisées, par exemple un ajustement linéaire, calculé pour chaque mois ou 
trimestre à partir des valeurs échelonnées d’année en année. Selon la nature du caractère 
analysé, on fera ou non un lissage préalable par moyennes mobiles. 
Le terme e(r;) s’appelle la variation accidentelle (ou résiduelle). Défini comme la différence 
VE) — (ft;) + S(t)), il est purement aléatoire (pour autant que ce mot soit approprié pour le 
phénomène étudié) ; il est de moyenne nulle sur une année. 


séries appariées 
Voir appariées (séries). 


série statistique (sample values) 
Suite (x;) de données individuelles (ce qualificatif s’oppose à « regroupées ou totalisées par 
classes ») recueillies en vue d’une analyse statistique. Synonyme d’échantillon. 

On appelle parfois série statistique double une suite ((x;, y;)) de couples de données indivi- 
duelles. 
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seuil 


Mot ambigu qui est utilisé aussi bien dans l’expression seuil de risque (notation tradition- 
nelle œ) que dans l’expression seuil de confiance (notation traditionnelle 1 — @). 


Sheppard (correction de) (Sheppard correction) 
Correction qui débiaise le calcul d’une variance empirique effectué à partir des centres de 
classes qui sont des intervalles de longueur fixe. 

Voir variance d’un échantillon statistique. 


sigma-additivité, o-additivité 
Voir additivité. 


sigma-algèbre, o-algèbre 
Voir tribu. 


signes (test des) (sign test) 


Test d’hypothèse non paramétrique utilisé pour contrôler l’absence de « différence systéma- 
tique » dans un échantillon statistique constitué « par paires » (Sign Test for Matched Pairs). 
Il est aussi utilisé pour contrôler la valeur de la médiane. 

La situation de base est celle de couples de variables numériques (X;, Y;), dont chacun 
donnera lieu à une unique observation couplée. Les lois des X; et des Y; ne font pas l’objet 
d’un présupposé d’uniformité et l’on postule seulement que les différences D; = Y; — X; 
suivent toutes la loi d’une même variable Z, que l’on supposera symétrique. Le test des signes 
contrôle l’égalité P(Z < 0) = P(Z 2 0) (si les lois sont continues, on a par surcroît P(Z = 0) = 0, 


et donc P(Z < 0) = P(Z > 0) = : ). Il fonctionne très simplement par vérification de la répar- 


tition binomiale B(n, 5) des signes de Z, après éventuelle répartition conventionnelle des 


valeurs nulles. 

Un premier type d'utilisation porte sur des observations couplées qui sont présentées soit 
comme des observations d’une même variable sur plusieurs individus dans deux situations 
différentes, soit comme provenant de deux familles de variables X; et Y;. Le but pratique est 
d’examiner l’efficacité d’un apprentissage, l’efficacité d’une thérapeutique, la discordance 
de deux corrections, la différence systématique entre deux méthodes de mesure, etc. L’hypo- 
thèse H, est que la loi de la variable Z qui représente la différence des observations est symé- 
trique. Elle est parfois présentée comme « 17 = 0 » quoique le rejet de la symétrie n’interdise 
pas en théorie que l’espérance soit nulle (mais la présentation plus rarement employée 
Ho= « V;Ux;= 1; » n’est pas appropriée). 

Un deuxième type d’utilisation considère une seule variable Z de médiane M, et teste 
H,=«M =0>» (ou, par décalage, de H, = «M = M, »).. Dans cette utilisation, le test 
devient paramétrique (mais reste « libre », puisqu'il n’y aucune exigence sur la loi). 


test bilatéral non paramétrique de symétrie 
de la loi d'une différence de variables 


+ Données. Deux séries appariées : un échantillon double ((x;, y), (&, ya), ..., (x, y,)) den 
valeurs couplées de deux variables aléatoires numériques dont les différences suivent toutes 
la loi d’une même variable Z. 


+ Hypothèse testée. H, = « la loi de Z est symétrique » contre H, alternative. 
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+ Déroulement technique du test 
1. On compte le nombre n, des différences z; = y; — x; positives (s’il y a des différences 
nulles, on les compte positives pour moitié, négatives pour moitié ; autre méthode : on 
les retire de l’échantillon, ce qui diminue bien sûr la valeur de n). 


2a. Si n est petit (7 < 20), on calcule directement la probabilité que B(n ;) _ : dépasse 


et on la compare au risque bilatéral © (ou bien on se réfère à une table spéci- 


n,-" 
= 
2 


fique). 
2b. Si n est grand (n > 20), on utilise l’approximation normale de la loi binomiale et on 
calcule : 
[2n,-n|-1 
t= ———-, 
n 
que l’on compare au f,, (écart absolu de probabilité de dépassement ©) de la table de 
la loi normale. 


+ Conditions et précautions 
Aucunes 


Remarque : Pour approcher la loi binomiale par la loi normale qui est continue, il faut 
étaler la valeur entière n, entre n, — 0,5 et n, + 0,5 : sous la forme |2n, — n| — 1, le 
numérateur de la formule qui donne f inclut cette « correction de continuité » dans le 
sens approprié. 


test bilatéral de comparaison 
de la valeur d'une médiane M à une valeur fixée M, 


+ Données. Un échantillon (z;, z», …, z,) de n valeurs observées d’une variable aléatoire 
numérique X de médiane M. 


+ Hypothèse testée. H, = « M = M, » contre H,=«M2Z4M, ». 


+ Déroulement technique du test 
1. On compte le nombre n, des différences z;, - M positives (s’il y a des différences 
nulles, on les compte positives pour moitié, négatives pour moitié ; autre méthode : on 
les retire de l’échantillon, ce qui diminue bien sûr la valeur de n). 
2a ou 2b comme ci-dessus. 


+ Conditions et précautions 
Aucunes. 


test unilatéraux 


Comme les tests bilatéraux avec pour seule différence : 
Si 2a : on se réfère à la probabilité unilatérale que l’écart B(n. :) =? 
supérieur (selon l’hypothèse H,,) à l’écart observé. 2, 2 
Si 2b : on prend dans la table de la loi normale l’écart dont la probabilité unilatérale de 
dépassement est © (ou, ce qui est équivalent, l’écart absolu dont la probabilité de dépas- 
sement est 20). 


soit inférieur ou 


Dans le cas standard du test des signes pour les séries appariées, on peut aussi tester la même 
hypothèse « la loi de Z est symétrique » avec une ancienne version du test de Wilcoxon, ou 
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bien l’hypothèse dérivée « 1, = 0 » avec un test de Student (il est souvent suggéré que ces 
tests sont plus puissants, mais que le test des signes est plus rapide « à la main »). 


significativité d'un coefficient (correlation coefficient 
de corrélation (test de) significance test, testing p = 0) 


Test paramétrique qui compare la valeur observée d’un coefficient de corrélation à zéro (qui 
contrôle donc la « significativité » d’une corrélation non nulle). 


test bilatéral de comparaison d'un coefficient de corrélation à zéro 


+ Données. Un échantillon de n couples de valeurs observées (x1, y1), (x, 2), …,(x,, y,) d’un 
couple (X, Y) de variables aléatoires numériques de coefficient de corrélation p. 


* Hypothèse testée. H, = « p =0 » contre H;=«pÆ40» 
+ Déroulement technique du test 


1a. On calcule les moyennnes observées x et y avec les formules usuelles. 


1b. On calcule la valeur observée du coefficient de corrélation avec une des formules 
usuelles, par exemple 


S (G-00-5) 


i=1 


S =D TS 0-5) 
= i=l 


2. On calcule la valeur observée de la variable de test : 


1= 1 Nn-—2. 
N1- 72 
Les valeurs de référence de la variable de test sont à lire dans les tables de la loi de 
Student, elles dépendent du nombre de degrés de liberté ddl = 7 — 2, et du risque & (on 
peut aussi utiliser une table spécifique qui donne directement la valeur critique de |r| 
en fonction du risque &). 


+ Conditions et précautions 


— En théorie (X, Y) doit suivre une loi normale à 2 dimensions, donc aucune précaution 
si on présume que c’est le cas ; 

— lorsque ce n’est pas le cas, le test est robuste et reste applicable si n est « assez grand », 
la condition n > 30 est traditionnelle. 


La valeur critique de |r| peut paraître assez grande... par exemple |r|= 0,36 pour n = 30 et 
© = 0,05. Mais on se souviendra que le poids du coefficient de corrélation est correctement 
mesuré par son carré : dans cet exemple 0,362 = 0,13, et c’est une valeur raisonnablement 
faible. 

On n’oubliera pas enfin que le coefficient de corrélation « mesure » une liaison linéaire (ce 
qui est toujours le cas si (X, Y) suit une loi normale) mais qu’il perd toute signification 
lorsqu'il existe une liaison non linéaire ! 

Cela étant noté, si la liaison est présumée linéaire, le test « de significativité » du coefficient 
de corrélation vaut test d’indépendance. 
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On peut aussi tester une hypothèse H, = «p = p, ». La loi du coefficient de corrélation 
observé sous cette hypothèse est compliquée et mal utilisable mais la z-ransformation de 
Fisher permet d'utiliser (si n 2 30) la loi normale comme loi de test. 


test bilatéral de comparaison 
d'un coefficient de corrélation à une valeur fixée 


+ Données. Un échantillon de n couples de valeurs observées (x,, y), (%2, ya), .….,(x,, y,)) d’un 
couple (X, Y) de variables aléatoires numériques de coefficient de corrélation p. 


* Hypothèse testée. H, = « p = p, » contre H, = «p £ Po». 
+ Déroulement technique du test 
1a. On calcule les moyennnes observées x et y avec les formules usuelles ; 


1b. On calcule la valeur observée du coefficient de corrélation avec une des formules 
usuelles (cf. plus haut). 
2. On calcule la valeur observée de la variable de test, d’abord : 


z= argthr= sn(itr) et , =arg th po = | 
F, 


| 
1- 2 ? 


l-Po 


puis : É——*;, 
Nn — 3 

Les valeurs de référence de la variable de test sont à lire dans les tables de la loi 
normale centrée réduite, elles ne dépendent que du risque ok. 


+ Conditions et précautions 
En théorie (X, Y) doit suivre une loi normale à 2 dimensions, et il faut de plus n > 30. 


significativité d’une régression (test de) 
Voir Fisher (test de). 


simulation de nombres [pseudo-Jaléatoires 

Le principe de base consiste à générer une suite d’entiers compris entre 0 et M — 1 par des 
opérations « modulo M ». On divise ensuite par M pour obtenir une suite de réels compris 
entre 0 et 1. Si M est très grand et si la méthode de génération de la suite d’entiers est conve- 
nable, avec des paramètres appropriés, on obtient finalement une suite qui a toutes les 
propriétés d’un échantillon d’une variable aléatoire réelle continue de loi uniforme sur [0, 1[. 
Un type classique et efficace de générateurs définit la suite d’entiers par récurrence linéaire : 

X,41=4+bx, (mod. M), 


pour un choix convenable de M, a et b. Un telle suite est périodique mais cela est sans incon- 
vénient dès lors que sa période est très grande par rapport au nombre de termes utilisés. Cette 
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génération est faite automatiquement par les bibliothèques des logiciels et des « packages » 
logiciels, l’utilisateur a en général la possibilité de choisir un « germe », i.e. un élément de 
départ pour la suite récurrente. 


simulation d'un échantillon aléatoire de loi donnée 

Un théorème d’« inversion de la fonction de répartition » permet des tirages de valeurs d’une 
va. continue X de loi donnée à partir de valeurs au hasard d’une v.a. U de loi uniforme sur 
[0, 1[. Si la fonction de répartition F de X est continue et possède une fonction réciproque F-|, 
alors F-l(U) suit la loi de X. Si F-l est d’expression simple, cette méthode est très efficace. 


Exemple Soit la loi exponentielle de paramètre À et de fonction de répartition F(x) = 1 — ex 


(sur x > 0). Alors F-l(u) = — : In (1 — u). Donc, si U suit une loi uniforme sur [0, 1{, 


_ ï In (1 -U), et aussi — ï In U par symétrie, suivent une loi exponentielle de paramètre À. 
Pour la loi normale, la fonction F-! ne possède pas d’expression analytique et l’on peut par 
exemple utiliser la méthode suivante : 

Si U et V sont uniformes sur [0, 1[ et indépendantes, X = /-2InUsin2rV et Y = 
N-21nU cos2rV sont normales centrées réduites et indépendantes. 

Pour une loi discrète il faut procéder autrement. Pour simuler par exemple une v.a. X de 
Bernoulli de paramètre p, on prend une v.a. U uniforme sur [0, 1[ et on pose X = 1 si U <p, 
X = 0 sinon (ce procédé s’étend naturellemment à la simulation d’une v.a. multinomiale). 


singleton (one-element set) 
Partie d’un ensemble réduite à un seul élément. 

En calcul des probabilités, si {a} est un singleton (a € Q), on écrit le plus souvent P(a) au 
lieu de P{{a}) pour simplifier les notations. 


singulière (loi) (degenerate distribution, singular distribution) 
Synonyme de dégénérée (loi). 
Loi d’une variable aléatoire certaine. 


Formulaire 


Un paramètre réel x,,. X est la variable aléatoire qui prend la valeur x, avec probabi- 
lité 1. 
pA FA 


LE 
0 X0 x 0 X x 
probabilité fonction de répartition 


> Valeurs caractéristiques 
— espérance : E(X) = x 
— variance : Var(X) = 0 
— écart-type : G(X) = 0 


162 Smirnov (test de) 


> Utilisation 


Cette loi intervient dans un certain nombre de situations comme cas limite ; elle peut égale- 
ment intervenir comme variable aléatoire limite (au sens de la « convergence en loi ») : par 
exemple comme limite de la moyenne dans les épreuves répétées. 


Smirnov (test de) 
Voir {Kolmogorov-] Smirnov (test de). 


sommation (formules de) (summation formulae) 


Formules utiles pour des calculs relatifs à des probabilités discrètes 
> Somme des n premiers entiers 


1+2+34+.. on Pre 


k=1 
> Somme des n premiers termes d'une progression —. 


n-1 
a+(a+b)+(a+2b)+...+(a+(n-1)b) = Y'a+kb = na +#@ D, 
k=0 
> Somme des carrés des n premiers entiers 


12+22+3%24+. += Je = A+ DOn+D 


k=1 
> Somme des cubes des n premiers entiers 


n2 1y2 
13+23+33+ mens De = tt 

k=1 
> Somme des n premiers termes d'une progression géométrique (a Z 1) 


LL on 
1+0+02+... +a-1= Va-it À 
1-0 


> Somme infinie des termes d'une progression géométrique (lol < 1) 


. 1 
1+Q+02+...+@+... = > a = —— 
1-0 
k=0 
> Somme infinie liée aux termes d'une progression géométrique (lol < 1) 


Oo + 202 +... + nO! + = S'UDE= 
k=0 
> Somme des inverses des n premiers entiers (encadrement numérique) 


(l- "> 


n 


infn +3 s)+0sm<r+ ++. __— Di<h(n+) 2) 0.5946 M>1 
2 |" 5 n Zik 


Infn + +)+0.577215<2 il. >, L<In(n+ 2 + 0.577 593 (n > 10) 
2 2 5 k 
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somme de deux variables aléatoires (réelles) (sum …) 


Des formules générales existent pour les probabilités et les densités, mais on se limitera ici 
au cas de v.a. indépendantes. 


Variables aléatoires réelles discrètes et indépendantes 


On suppose X définie par l’ensemble {x;} des valeurs prises et par les probabilités 
ponctuelles p; = P(X = x;). 
On suppose Y définie par l’ensemble {y;} des valeurs prises et par les probabilités 
ponctuelles g; = P(Y = y). 
On pose S = X +Y. 
Formule 1 : 

P(S = 5) = 3 Pig; 

x; +); =S 

(comprendre : sommer sur l’ensemble des couples (1, j) tels que x; + y; = 5). 
Formule 2 équivalente : 


PS=5)= S'P(X=x)P(Y =5-x) 


(comprendre : prendre P(Y = s — x;) = P(Y = y;) lorqu’il existe une valeur y; telle que 
y;=s-— x; prendre P(Y = s — x;) = 0 lorsqu'il n’en existe pas). 


Variables aléatoires absolument continues et indépendantes 


On suppose X définie par sa densité f(x), et on pose F(x) sa fonction de répartition. 
On suppose Y définie par sa densité g(y), et on pose G(y) sa fonction de répartition. 
On pose S = X +Y. 

La densité A(s) de S est donnée par : 


h(= [fe -0ax = [ eOYs- ay 


(nota : si X et/ou Y prend ses valeurs sur une partie seulement de R, avec donc sa 
densité nulle à l’extérieur, ne pas oublier de réduire en conséquence l'intervalle 
d'intégration). 

La fonction de répartition H(s) de S est donnée par : 


H()= [GC 0 dx = [GDF dy 


Exemple On considère deux va. X, et X, uniformes sur [0, 1] et on définit leur somme 
S = X, + X,. Donner la densité de probabilité h des. 


Il existe une notation mathématique spécifique I}, ,1(x) pour représenter la « fonction caracté- 
ristique » (ou indicatrice) de l'intervalle [a, b], i.e. la fonction égale à 1 sur cet intervalle et nulle 
en dehors. On a donc ici, pour fi et f, les densités de X, et X, : fi =f2= 10,1. On peut donc écrire : 


h(s) = J oo 


Donc }(s) est simplement égale à la longueur de l’intervalle sur lequel 1,5, 0) et Lio, 1105 — x) 
sont simultanément non nulles. Si s < O0 ou s > 2, cet intervalle est vide et h(s)=0 ; 
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si0<s< 1, cet intervalle est [0, s] et As) = s ; si 1 < s < 2, cet intervalle est [s — 1, 1] et 
h(s) =2—Ss. 


À un niveau plus approfondi, il faut signaler que l’intégrale [ f(x)g(s —-x)dx représente le 


«produit de convolution » des fonctions f et g, qui se traduit de façon intéressante sur les 
fonctions caractéristiques. Si 6x, py et @, sont respectivement les fonctions caractéristiques 
de X,YetS,ona: 

Ps) = ExE) EYE), 
formule qui se généralise immédiatement à la somme d’un nombre fini quelconque de v.a. 
indépendantes. 


Indicateurs 
Cas général : 
E(X + Y) = E(X) + E(Y), 
Var(X + Ÿ) = Var(X) + 2 Cov(X, Y) + Var(Y). 
Cas où X et Y sont indépendantes : 
Var(X + Y) = Var(X) + Var(Y). 


La formule E(X + Y) = E(X) + E(Y), pour laquelle l’indépendance n’est pas nécessaire, est, 
pour cette raison, tout à fait remarquable et souvent l’unique moyen d’aborder l’étude de 
certains problèmes compliqués. 

Voir opérations sur les variables aléatoires. 


somme de n variables aléatoires 


Indicateurs 


Cas général : 
EX, + X, +... + X,) = E(X,) + E(X;) + … + E(X,) 
Cas où X,, X,, …, X, sont 2 à 2 indépendantes : 
Var(X, + X, +...+X,) = Var(X;) + Var(X;) + … + Var(X,) 


Même remarque que plus haut sur la formule qui donne E(X; + X, +. +X,,). 
Voir épreuves répétées. 


sondage (sampling) 
Opération de recueil de données pour un échantillon d’individus d’une population. 

Ce mot est l’exact synonyme d’échantillonnage, même si les habitudes font utiliser préféren- 
tiellement l’un ou l’autre mot selon les situations. 

Un des chapitres de la statistique mathématique étudie les techniques de constitution 
d'échantillons qui, tout en restant « représentatifs » de la population, permettent d’améliorer 
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la précision des estimations. Certaines de ces techniques sont dites aléatoires (tirage aléa- 
toire simple, sondage stratifié, sondage par grappes, sondage systématique), les autres empi- 
riques (méthode des quotas, méthode des unités-types). 


Spearman 


Voir corrélation des rangs (coefficient de — de Spearman). 


statistique (statistics) 


> Sens général 


Branche des mathématiques qui traite de l’étude de « données », résultats obtenus lors 
d’expérimentation ou d’observations de phénomènes aléatoires ou mal prévisibles. La statis- 
tique se divise en trois grandes parties : 


— recueillir, décrire, présenter, résumer les données sous une forme qui rend leur exploita- 
tion commode et efficace (statistique descriptive), 

— analyser ces données de façon à obtenir des informations sur le modèle probabiliste 
(« loi » de probabilité avec ses paramètres) qui a régi leur production (estimation des 
paramètres), 


— contrôle et validation du modèle probabiliste reconstitué (tests d’hypothèses), 

Les parties 2 et 3 sont parfois globalement qualifiées de statistique inférentielle. 

Chacune de ces parties débouche, à son niveau propre, sur des possibilités de prévision et de 
décision. 

L'usage le plus courant est d’écrire en français statistique «sans s», en référence à 
« méthode statistique », pour différencier la statistique des statistiques (sens n° 2 ci-dessous). 
> Sens technique faible 

Ensemble ou tableau de données recueillies lors d’expérimentation ou d’observations de 
phénomènes aléatoires ou mal prévisibles. 

> Sens technique fort 


Désigne en calcul des probabilités une variable aléatoire fonction d’un échantillon (X,, X;, 

. X,) de variables aléatoires. Ce pourra être dans certains cas un « résumé » de l’échan- 
tillon, auquel on appliquera les outils mathématiques de la statistique, dans d’autres cas la 
« variable de décision » d’un test d’hypothèse. 


statistique d'ordre 
Voir ordre (statistique d’). 


statistique (variable) 


Voir variable statistique. 


Stirling (formule de) 


Voir factorielle. 


stochastique (stochastic) 


Adjectif qui signifie aléatoire ou lié au calcul des probabilités, et qui figure dans des locu- 
tions consacrées par l’usage. En particulier, indépendance stochastique signifie indépen- 
dance « en probabilité », par opposition à indépendance physique, et processus stochastique 
est l’appellation officielle des « fonctions aléatoires » dépendant du temps. 
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Student (William) 
Voir Gosset (William). 


Student (loi du t de) (Student t distribution) 


Loi d’une variable aléatoire continue utilisée pour le contrôle des tests de comparaison de 
deux espérances mathématiques. 


Formulaire 


Un paramètre entier n 2 1 qui représente le nombre de « degrés de liberté » ; valeurs 
réelles. 


> Loi de probabilité de X (qui sera notée ultérieurement T,) 


0 | x 
densité fonction de répartition 
ee ) D x 
RD = (14€) ? FO) = [” ftodr 
1 3) u 
Fr 


> Valeurs caractéristiques 


— espérance : E(X) = 


— variance : Var(X) = . (sin >3) 


— écart-type : G(X) = 5 Gi n 23) 


> Cas particulier : lorsque n = 1, on obtient la loi de Cauchy standard. 


Théorème. Lorsque n tend vers l’infini, la variable aléatoire de Student à n degrés 
de liberté converge en loi vers une v.a. normale centrée réduite. 


> Utilisations 


En théorie, une v.a. de Student à n degrés de liberté peut être définie comme le quotient 


T,= ——, où X est une v.a. normale centrée réduite et Y,, une v.a. du khi-deux à n degrés de 
= 
n 


liberté, X et Y, indépendantes. 
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Cette loi intervient dans les tests de comparaison de deux espérances en raison de la propriété 
fondamentale suivante : si X,, X;, …, X, sont n v.a. normales identiques (d’espérance Li et 
i=n 
d’écart-type 6) indépendantes, si M, = - > x; est la variable aléatoire moyenne, et si 
“ei 
; 1 i=n 


17. ” (X;-M,)? est la variable aléatoire estimateur « débiaisé » de la variance, 
n _ 


i=1 


2 suit 


alors, d’une part M, et S? sont des v.a. indépendantes, d’autre part le quotient 
n 


\n 


une loi de Student à n — 1 degrés de liberté. 
Remarque : si l’on prenait pour S? l’estimateur biaisé de la variance, le dénomina- 


. S 
teur devrait être —"— 
n—1 


Student (test de), test t ([Student] t test) 


Test paramétrique qui compare, soit la moyenne observée d’un échantillon statistique à une 
valeur fixée, soit les moyennes observées de deux échantillons statistiques (en fait, un voca- 
bulaire rigoureux devrait faire référence aux espérances mathématiques des lois et non pas 
aux moyennes (observées)). Il permet également de comparer, soit la probabilité observée à 
partir d’un échantillon statistique à une valeur donnée, soit les probabilités observées à partir 
des deux échantillons. 

Chacun de ces tests peut être effectué, soit en bilatéral (cas général), soit en unilatéral (cas où 
l’on sait, ou bien où l’on postule, que l’une des inégalités imaginables est exclue). 

> Comparaison de moyennes 

Dans ce cas, ce test ne s’applique en toute rigueur qu’à des échantillons issus de variables 
aléatoires normales, mais il est « robuste », ce qui signifie qu’il demeure applicable à d’autres 
lois — à condition toutefois de prendre certaines précautions qui sont décrites ci-dessous. 


test bilatéral de comparaison 
d'une espérance mathématique lu à une valeur fixée Lo 


+ Données. Un échantillon (x;, x, …, x,) de n valeurs observées d’une variable aléatoire 
numérique X d’espérance mathématique LL. 


+ Hypothèse testée. H, = « 1 = pi, » contre H, =«U £ Ho » 


+ Déroulement technique du test 


1. On calcule la moyenne m,,, de l'échantillon. 
2. On calcule la variance non biaisée s4,. de l’échantillon. 


So : 
3. On pose s* = -%% et on calcule la valeur observée de la variable de test : 


n 


t= [M0 — Lol : 


S 
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Les valeurs de référence de la variable de test sont à lire dans les tables de la loi de Student, 
elles dépendent du nombre de degrés de liberté de l’échantillon : ddl = n — 1, et du risque © 


+ Conditions et précautions 
— En théorie X doit être une v.a. normale, donc aucune précaution si c’est le cas ; 


— lorsque ce n’est pas le cas, le test est robuste et reste applicable si n est « assez grand », 
la condition n 2 30 est traditionnelle (en fait, on peut descendre en-dessous si la loi 
de X est continue et/ou symétrique). 


— test bilatéral de comparaison de deux espérances mathématiques 1, et y — 


+ Données. Deux séries : 
— un échantillon (x;, x, …, Xn,) de nx valeurs observées d’une variable aléatoire numé- 
rique X d’espérance mathématique LU, ; 


— un échantillon (y;, y», …, Yny) de ny valeurs observées d’une variable aléatoire numé- 
rique Ÿ d’espérance mathématique LL: 


* Hypothèse testée. H, = «Lx = y » contre H, = «x #Ly ». 


+ Déroulement technique du test 


1. On calcule les moyennes observées mx et my des deux échantillons. 


. ee 7 2 2 . 
2a. On calcule les variances non biaisées 5% et s$ des deux échantillons. 
2b. On calcule une variance commune pondérée : 
2 2 
De (ax 1)sg + (ny —1)s$ 
nx +ny—2 


3. Onpose s* = 5 ÊÈ + L et on calcule la valeur observée de la variable de test : 
x y 


my —m 
= Pere) x x, 


S 


Les valeurs de référence de la variable de test sont à lire dans les tables de la loi de 
Student, elles dépendent du nombre total de degrés de liberté de l’échantillon : ddl = 
nx + ny — 2, et du risque ©. 


+ Conditions et précautions 


— En théorie X et Y doivent être des v.a. normales, mais le test est robuste et reste appli- 
cable à des v.a. non normales si n3 et ny sont « assez grands » (cf. ci-dessus) ; 

— en outre X et Y doivent avoir même variance : lorsque n4 et ñn4 ne sont pas très grands 
et qu’il semble que les variances ne soient pas égales, il faut faire précéder le test de 
comparaison des deux espérances par un test de comparaison des variances ; lorsque 7x 
et n, sont « grands », on peut de nouveau utiliser la robustesse et passer outre à l’inéga- 


D 
_ : : _— SX S 
lité des variances (certains manuels proposent l'estimation s*= |-X +). 
nx n 
x y 
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test unilatéral de comparaison 
d'une espérance mathématique u à une valeur fixée 
0 


+ Données. Un échantillon (x, x>, …, x,) de n valeurs observées d’une variable aléatoire 
numérique X d'espérance mathématique 1. 


+ Hypothèse testée. Par exemple H, = «1 <H, » contre H, = «pH > LU ». 


+ Déroulement technique du test 
On calcule la moyenne m,,,, de l’échantillon : 
— Si Ms < Ho il Y a NON-REJET de l’hypothèse H, et le test est terminé ; 


— Si Ms > Ho On poursuit à l’identique du cas bilatéral jusqu’au calcul de la 
variable de test r. 


La seule différence est que — pour le risque & — les valeurs de référence de f sont à 
lire dans les tables de la loi de Student dans la colonne 2@ (avec le même nombre 
de degrés de libertés ddl = 7-1). 


+ Conditions et précautions : Les mêmes que ci-dessus. 


— test unilatéral de comparaison de deux espérances mathématiques lu, et 1, — 


+ Données. Deux séries : 


— un échantillon (x;, x, …, An) de nx valeurs observées d’une variable aléatoire numé- 
rique X d’espérance mathématique LU, ; 


— un échantillon (y;, y, …, Yny) de n., valeurs observées d’une variable aléatoire numé- 
rique Ÿ d’espérance mathématique L+. 


+ Hypothèse testée. Par exemple H = « x < y » contre H; = « x > Ly ». 


+ Déroulement technique du test 
On calcule les moyennes observées m, et m, des deux échantillons : 
— simx<my il y a NON-REJET de l'hypothèse H, et le test est terminé ; 


- Si mx > my On poursuit à l'identique du cas bilatéral jusqu’au calcul de la 
variable de test f. 
La seule différence est que — pour le risque & — les valeurs de référence de f sont à 


lire dans les tables de la loi de Student dans la colonne 2@ (avec le même nombre 
de degrés de libertés ddl = n — 1). 


+ Conditions et précautions : Les mêmes que ci-dessus. 


Voir moyenne, variance. 


> Comparaison de pourcentages / probabilités 


Comme le paramètre p d’une v.a. de Bernoulli X est à la fois la probabilité que X = 1 et 
l’espérance E(X), le fonctionnement du test de Student pour les probabilités est identique au 
fonctionnement du test de Student pour les espérances, à deux détails près : l’absence 
d’écart-type à estimer, et quelques adaptations des conditions et précautions. 

Un usage ancien utilise le mot pourcentage (à connotation statistique) plutôt que probabilité 
(à connotation. probabiliste, si l’on ose dire). 

Ce test peut être effectué, soit en bilatéral (cas général), soit en unilatéral (cas où l’on sait, ou 
bien où l’on postule, que l’une des inégalités imaginables est exclue). 
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— test bilatéral de comparaison d'une probabilité P(A) à une valeur fixée po — 
° Données. Un échantillon de n observations, sur lesquelles A a été observé k fois. 
+ Hypothèse testée. H,, = « P(A) = p, » contre H, = « P(A) Z p, ». 


+ Déroulement technique du test 


— Sinest petit, on utilise directement la valeur de k et on se réfère soit à des tables numé- 
riques spéciales soit au calcul de la probabilité correspondante de la loi binomiale 
B(n, po). 


— Sin est grand : 


1. On calcule l'estimation de P(A) : p = L ; 
n 


2. On pose s*° = pU = p) et on calcule la valeur observée de la variable de test : 
n 


_ lP “Pol | 


% 


S 


Les valeurs de référence de la variable de test sont à lire dans les tables de la loi 
normale, elles ne dépendent que du risque ot. 
+ Conditions et précautions 


Il faut que la distribution ne soit pas « trop » dissymétrique, ce qui se traduit par la 
double condition traditionnelle np 2 10, n(1 — p) z 10 (que l’on peut sans grand risque 
affaiblir en np 25, n(1-p)2>5). 


Lorsqu'on fait fonctionner ce test avec une valeur de n « moyennement grande » mais néan- 
moins avec la loi normale comme loi de référence, il faut faire une correction qui « étale » la 
probabilité binomiale d’obtenir la valeur entière k en une probabilité pour la loi normale 
(avant centrage et réduction) d’obtenir une valeur entre k — 0,5 et k + 0,5 : on prend donc 


1 
P-Pd +3 
ee 7, 


# 
S 


——— test bilatéral de comparaison de deux probabilités P(A;) et P(A) ———— 


+ Données 
— Un premier échantillon de n, observations, sur lesquelles À, a été observé k; fois ; 
— un second échantillon de n;, observations, sur lesquelles A; a été observé k, fois. 

° Hypothèse testée. H, = « P(A;) = P(A,) » contre H, = « P(A,) 4 P(A;) ». 


+ Déroulement technique du test 


k k 
1a. On calcule les estimations de P(A;) : p; = — ,et de P(A;) : P2 = 2 

ni Le) 
VIP | k+k 


1b. On calcule une estimation globale commune : p = ‘ 
ni +n ni+n 
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2. On pose s° = /p(1-p) L + À et on calcule la valeur observée de la variable de 
fn, n 


2 
test : 


IP — P)| 


Ps 


S 


Les valeurs de référence de la variable de test sont à lire dans les tables de la loi normale, 
elles ne dépendent que du risque ©. 


+ Conditions et précautions 
— I n’y a pas de tables numériques spéciales pour les petites valeurs des effectifs, et il 
faut donc supposer n, et n, 2 30 ; 
— il faut que les distributions ne soient pas « trop » dissymétriques, ce qui se traduit par la 
quadruple condition n,p, 2 5 ou 10, n,(1 -p,) 25 ou 10, np, 25 ou 10, n,(1 -p;) 25 
ou 10. 


— test unilatéral de comparaison d'une probabilité P(A) à une valeur fixée po — 
Test unilatéral de comparaison de deux probabilités P(A.) et P(A;) 
La procédure de test et les calculs sont identiques au cas bilatéral à une seule exception près : 


la valeur de référence de f — pour le risque © — est à lire dans les tables de la loi normale dans 
la colonne 20. 


suites (test des) (run test) 


Test non paramétrique qui contrôle l’indépendance des valeurs successives d’un échantillon 
d’une variable dichotomique en examinant le nombre de suites de valeurs identiques, dans le 
cas où la succession des valeurs observées est pertinente. Ce test est parfois employé pour 
contrôler l’indépendance des valeurs successives des résidus dans une régression en testant 
les suites de leurs signes. 


— test d'indépendance globale d'un échantillon dichotomique séquentiel —— 


+ Données. Un échantillon séquentiel de n, observations de l’évènement À, et n, observa- 
tions de l’évènement contraire A;. 

+ Hypothèse testée. H, = « les valeurs successives sont indépendantes » contre H, alternative. 
+ Déroulement technique du test 


1. On compte le nombre r de suites d’observations identiques qui composent les n, +n, 
observations totales ; 


— = ————— 
nt (n,+n) (nn, +n-1) 


2. On pose m, = et on calcule la valeur 


observée de la variable de test : 
_ fr _m rl 


s, 
Les valeurs de référence de la variable de test sont à lire dans les tables de la loi normale, 


elles ne dépendent que du risque ©. 


+ Conditions et précautions 
Aucunes. 


172 système complet d'évènements 


système complet d'évènements (complete set of events) 
Synonyme de partition. (partition, disjoint decomposition) 
Étant donné un espace probabilisable (Q, 4), on appelle système complet d'évènements — ou 
encore partition de © — un ensemble fini (A;) d'évènements 2 à 2 disjoints (2 à 2 incompati- 
bles) et dont la réunion est Q. 

Ainsi, chaque fois que l’on effectue l’épeuve, un et un seul des A; est réalisé. 


Voir Bayes (formule de), totales (formule des probabilités). 
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t (test) 
Voir Student (test de). 


tableau (table) 


Mode de présentation des données recueillies en vue d’une analyse statistique. 


tableau par classes et effectifs 


Présentation des données statistiques regroupées par classes (qui peuvent chacune corres- 
pondre à une ou plusieurs valeurs ponctuelles, ou bien être une tranche continue de valeurs). 
Un tableau par classes et effectifs se dispose en deux lignes ou deux colonnes, l’une contenant 
l'identification des classes, l’autre les effectifs des classes. Il est possible d’adjoindre des 
lignes ou des colonnes supplémentaires, par exemple pour donner les fréquences relatives. 


tableau de contingence (contingency table) 


Tableau à double entrée qui permet de représenter les effectifs d’une population ou d’un 
échantillon répartie selon les classes (en nombre fini) de deux variables. 
Synonyme de fableau croisé. 


taille [d'un échantillon] ([sample] size) 
Nombre d’individus de l’échantillon. Synonyme d’effectif total. 


taux de défaillance, de panne, de mort 
Voir défaillance (taux de). 


Tchebychev (Pafnouti) 


Mathématicien russe (1821-1894). Il contribua au calcul de nombreuses approximations 
numériques et fit également des travaux en théorie des nombres. 


Tchebychev (inégalité de) 


Voir Bienaymé-Tchebychev (inégalité de). 


temporelle (série) 


Voir série chronologique. 


temps d'attente (variable aléatoire) (waiting time, first passage time) 


Variable aléatoire qui modélise dans des « processus » le temps ou le délai avant la survenue 
d’un évènement fixé (a priori le premier, mais éventuellement le k-ième, k donné). Un temps 
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d’attente peut être continu (temps physique ordinaire), ou discret (temps physique dicrétisé, ou 
bien un numéro d’ordre ou un nombre de parties). Les lois les plus classiques pour une 
variable aléatoire temps d’attente sont la loi exponentielle, la loi d’Erlang, la loi de Weibull 
(cas continu), et la loi géométrique (cas discret). 


test d'hypothèse (hypothesis testing) 


Procédure, basée sur l’analyse statistique de résultats expérimentaux, qui permet de décider 
(avec un risque d’erreur) entre deux hypothèses. 

Dans la pratique, diverses raisons conduisent à privilégier l’une des hypothèses, appelée 
« hypothèse zéro (ou nulle) » et notée H, (l’autre hypothèse étant simplement l’alternative). 
Par surcroît, des raisons mathématiques font que dans la plupart des tests l’hypothèse H, est 
une hypothèse ponctuelle et que la conclusion ne peut jamais être son acceptation stricto 
sensu. 

La décision devient alors fortement dissymétrique : ou bien l’on rejette H,, ou bien l’on ne 
rejette pas H,,. 

Et le risque devient lui aussi fortement dissymétrique : ou bien l’on rejette H, alors qu’elle 
était vraie, risque appelé risque de première espèce ou risque d’erreur ; ou bien l’on ne 
rejette pas H, alors qu’elle était fausse, risque appelé risque de seconde espèce ou risque de 
manque de puissance. Bien entendu, tout gain sur l’un des risques se « paye » d’une perte sur 
l’autre. 

On introduit souvent une distinction entre tests paramétriques et tests non paramétriques. 
Lorsque l’hypothèse H, à tester nécessite une hypothèse préalable sur la loi de probabilité (ce 
sera le plus souvent une hypothèse de normalité) et implique des paramètres de cette loi, on dit 
que le test est paramétrique. Pour autant, la plupart des tests paramétriques sont robustes, r.e. 
supportent (dans des limites raisonnables que l’on peut préciser) que la loi réelle s’écarte de la 
loi nominale du test. Lorsque l’hypothèse H, ne nécessite aucune hypothèse préalable sur la 
loi de probabilité, on dit que le test est non paramétrique. À risque d’erreur égal, un test non 
paramétrique est en général moins puissant que le test paramétrique concurrent, mais cette 
perte de puissance est souvent assez faible. Cette distinction est surtout pertinente pour les 
tests de comparaison (d’espérances ou moyennes, de variances). Néanmoins, il y a quelque 
contradiction à qualifier de non paramétriques certains des tests qui contrôlent l’égalité de 
deux espérances (qui sont des paramètres !). Aussi, certains auteurs préfèrent parler de test 
libre lorsque la validité du test ne dépend d’aucune condition sur la loi. 

Voir Neyman-Pearson (lemme de). 


tests d'hypothèses (méthodologie des) 


La situation de « départ » est la suivante : on dispose d’une série ou d’un tableau de valeurs 
observées, et on se pose une question, éventuellement en langage « ordinaire ». 

1. Étape préliminaire. Il faut tout d’abord identifier la ou les variables aléatoires sous- 
jacentes aux valeurs observées, et leur loi, puis traduire la question posée en une hypothèse 
H, énoncée formellement en référence, soit à un (ou plusieurs) paramètre(s) de la loi identi- 
fiée, soit globalement à la nature de la loi. Cela étant fait, on peut alors choisir un test d’hypo- 
thèse adapté au problème étudié. 

2. Exécution du test : calculs. À chaque « variété » de test est associée une variable aléatoire 
positive qui sera d’autant plus grande que les observations s’« écarteront » de l'hypothèse H,,. 
Cette variable de test est souvent représentée par une notation traditionnelle : f, x, FE, U, etc. 
Les formules qui sont indiquées pour chaque variété de test permettent de calculer la valeur 
observée de la variable de test, que l’on notera ci-dessous y,ps- 
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3. Exécution du test : formulation de la conclusion. De façon schématique (la pratique 
pourra être plus souple et plus détaillée), la conclusion d’un test d’hypothèse est la décision 
de rejet ou de non-rejet de l’hypothèse H,. À cette décision est toujours associé un risque 
d’erreur, appelé niveau du test et traditionnellement noté ©. Ce niveau mesure le risque de 
se tromper dans le pari qu’est la conclusion du test. Il existe deux manières différentes de 

« gérer » ce risque d’erreur. 

Conclusion si le risque d’erreur est fixé a priori. Dans ce cas, on se fixe le niveau © avant de 

calculer y,,,. On doit alors chercher dans les tables numériques du test, en fonction de ct et 

éventuellement d’autres paramètres (nombre de degrés de liberté notamment) la valeur 
critique y(@) de la variable de test. Trois conclusions sont alors possibles : 

— Si Vos << Y(Q) : non-rejet de H, ; 

— Si y est inférieure à y(&) mais néanmoins assez grande (par exemple comprise entre 
7(0,20) et y(œ)) : affirmation que l’hypothèse H, est probablement fausse, mais que néan- 
moins on ne peut pas la rejeter sans courir un risque supérieur à © (le non-rejet de H, sans 
commentaire ne serait pas très judicieux) ; 

— Siy,ps 2 Y(Q) : rejet de H,,. 

Conclusion si le risque d’erreur n’est pas fixé a priori. Dans ce cas, et après avoir calculé 

Yo On cherche dans les tables numériques du test la valeur exacte (mais approximative — 

une grande précision n’a aucun intérêt) d’un risque f tel que y(B) = y, (cette valeur f 

s’appelle la probabilité critique). La conclusion est alors unique mais s’énonce par deux 

phrases complémentaires : 

— si on prend un risque d’erreur & < f, on ne peut pas rejeter H, ; 

— si on prend un risque d’erreur & > B, on peut rejeter H,, ; 


Selon la nature du problème et les enjeux de la situation réelle, on en restera à cette conclu- 
sion « académique », ou bien on choisira a posteriori un risque et on donnera une conclusion 
tranchée. 


théorique (theoretical) 
Lorsque cet adjectif n’est pas employé dans son sens général de la langue courante, il qualifie 


les paramètres des lois de probabilités (espérance théorique, variance théorique, ...), par 
opposition aux paramètres « observés » alias « empiriques » des distributions statistiques. 


tirage (drawing) 
Opération qui consiste en probabilités à effectuer une « épreuve » dont le résultat est un 
évènement élémentaire, et en statistique à extraire (par un procédé en principe aléatoire) un 
individu d’une population. 

Dans la présentation « extraction », on distingue les tirages AVEC remise, où les probabilités 
restent inchangées, et les tirages SANS remise, où les probabilités varient (un peu) au fur et 
à mesure des tirages. 


Voir binomiale (loi), hypergéométrique (loi). 


totales (formule des probabilités) (total probabilities formula) 


Étant donné un espace probabilisé (Q, À, P), une partition (ou système complet d’évène- 
ments) H,, H;, …, H, de Q, et un évènement B € A, on a: 

P(B) = P(H;)P(BIH:) + P(HL)P(BIE:) + … + P(H)P(B|H4) 
On notera que B est la réunion des évènements B AN H;, qui sont 2 à 2 disjoints. 
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triangle de Pascal, triangle arithmétique (Pascal triangle) 
Moyen pratique de calculer rapidement la suite des premiers coefficients binomiaux. Sur le 
schéma ci-dessous, on voit que chaque coefficient est la somme des deux qui sont sur la 


ligne du dessus, juste à gauche et juste à droite (prendre O0 quand l’un des deux manque au 
bord) : 


U À 


(la présentation ci-dessus respecte la symétrie, mais ce trangle est souvent présenté sous une 
forme « rectangle »). 


tribu (Borel field, Borel o-algebra, 
sigma-complete boolean algebra) 


Synonyme de G-algèbre. 

Famille (ensemble) À de parties d’un espace Q qui possède les propriétés nécessaires pour 
que (Q, 4) soit un espace probabilisable. 

Soient Q un ensemble et À un sous-ensemble de P(Q). On dit que À est une tribu (ou une 
6-algèbre) si elle satisfait aux axiomes suivants : 

- Qe À; 


— si (A,) (n = 1, 2, …) est une suite d’éléments de À, alors (y A, € À (stabilité par 
n=1 

réunion dénombrable) ; 
— siA € À, alors ÇA € A (stabilité par passage au complémentaire). 
En conséquence immédiate de ces axiomes, on a @ € A et la stabilité par intersection 
dénombrable. 
La motivation essentielle des axiomes des tribus est, outre d’avoir la stabilité pour les opéra- 
tions ensemblistes élémentaires, de permettre l’étude efficace des suites infinies d’évène- 
ments. 
Étant donné un ensemble de parties de Q, on peut définir la tribu « engendrée » par cet 
ensemble de parties. 
Les deux tribus les plus employées en calcul des probabilités sont, si Q est fini ou dénom- 
brable, la tribu P(Q) de toutes ses parties et, si Q = KR, la tribu engendrée par les intervalles 
fermés bornés, que l’on appelle la tribu des boréliens de R. 
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uniforme continue (loi) (uniform distribution, rectangular 
distribution) 

Synonyme de rectangulaire (loi). 

Loi d’une variable aléatoire continue à densité constante sur un intervalle. 


Formulaire 


Deux paramètres réels:meR;h€eR;. 


Valeurs concentrées sur l’intervalle I = |m _ à. m + 1 ; 


> Loi de probabilité 


fA FA 
1 1 
h ere re ; 
——— Cr LS 0 LM 
sh F8 " _h h " 
m 2 m + 2 m 2 m + 2 
densité fonction de répartition 
Osix<m-1 0 éme 
h h 
; 1 1 1 > 
fa) =4-sixel Fx)=4-=+-(x-m)sixel 
| h 2 h 
à 1 de 1 
0six>m+- 1 Six>m+— 
h h 


> Valeurs caractéristiques 
— espérance : E(X) = m 
h?2 


— variance : Var(X) = — 
12 


— écart-type : G(X) = .. 


245 
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uniforme discrète (loi) (discrete uniform distribution) 
Loi d’une variable aléatoire discrète équirépartie entre un nombre fini de valeurs. 


Formulaire 


Version standardisée (valeurs équidistantes sur les entiers). 


Un paramètre réel n (nombre de valeurs prises). Soit X la variable uniforme discrète 
de paramètre n : Valeurs prises : 1,2, …., n. 


> Loi de probabilité 


Si 


1 23 sé n x 


probabilités 
> Valeurs caractéristiques 
n+l 
2 


— variance : Var(X) = el 
12 


Nn2-1 
243 


unilatéral (one-sided, single-tail) 
Qualifie un test paramétrique où l’on teste l’hypothèse simple H,, = « 8 = 8, » contre une 
hypothèse alternative unilatérale, soit H, = « 8 < 6, », soit H, = «8 > 6, ». 

Les tables sont généralement adaptées au fonctionnement des tests bilatéraux, et la valeur 
critique de la variable de test pour le risque unilatéral ot est égale à la valeur critique donnée 
par la table pour le risque bilatéral 20. 


— espérance : E(X) = 


— écart-type : G(X) = 


unimodale (distribution) 
Voir mode. 
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V.a. 


Abréviation universelle (en français) pour « variable aléatoire ». 


valeur (value) 


Quantité ou modalité que peut « prendre » une variable aléatoire ou une variable statistique 
(ou caractère), ou les divers paramètres et indicateurs des distributions probabilistes ou 
statistiques. 


valeur caractéristique 


Voir indicateur. 


variable aléatoire (random variable) 


> Définitions de base 


Grandeur (nombre réel, numéro d’ordre) ou « modalité » dont la valeur dépend (varie «en 
fonction ») du résultat d’une épreuve en probabilités. À chaque évènement élémentaire @ € Q, 
correspond une valeur bien définie : cette « correspondance » est très exactement ce qu’on 
appelle dans le vocabulaire ensembliste une fonction ou une application (les deux mots sont 
synonymes, l’utilisation tantôt de l’un tantôt de l’autre est un simple problème d’usage). 
De façon formelle, on se donne, d’une part un espace probabilisé (Q, 4, P), d’autre part un 
ensemble E (l’ensemble des « valeurs prises ») ; on appelle alors variable aléatoire (définie 
sur (Q, À, P) et à valeurs dans E) toute application X de Q dans E : 

X:œEeQ — X(w)E E. 
Il ne faut se laisser perturber ni par le vocabulaire ni par les notations. Une variable aléatoire 
n’est pas une variable mais une application (au sens ensembliste du mot). Le mot variable est 
malencontreux mais son usage est consacré... Par surcroît, l’application variable aléaloire ne 
se note jamais f ou g, mais X ou Ÿ (ou par exemple N pour une variable aléatoire « de 
compte »). Ces notations, également consacrées par l’usage, sont particulièrement commodes 
et pédagogiques : les variables aléatoires se notent en lettres latines majuscules, et les valeurs 
prises (ou observées, en statistique) se notent par les minuscules correspondantes. 


Exemple Le lancer de 3 pièces et le nombre de Pile(s). On considère l’espace Q = {PPP,. 
PPF, PEP, PFF, FPP, FPF, PFP, FFF} constitué par les 8 évènements élémentaires du lancer 
de 3 pièces. On définit l’application X de Q dans R : 


X(@) = nombre de Pile(s) de l’évènement @. 
C’est une variable aléatoire. On a par exemple X(PPE) = 2, X(FFE) = 0. 


Étant donné un espace probabilisé (Q, 4, P) et une variable aléatoire à valeurs dans E, il 
faudra ensuite « induire » une mesure de probabilité sur E. Pour cela, il faut préalablement 
faire de E l’espace fondamental d’un espace probabilisable (E, B), et ensuite utiliser la 


in 


A 


X 
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notion d’application réciproque étendue à l’ensemble des parties. Soit f une application d’un 
ensemble E dans un ensemble F : on définit f- ! application de P(F) dans P(E) par : 
siBCF:f-!(B)={xe Elf € B}={xe Eye Bety=f(x)}. 

La partie f-!(B) s’appelle l’image réciproque de B. Elle est toujours définie (s’il n’existe 
aucun x € E tel que f(x) e B, f- !(B) est la partie vide). 
On peut alors compléter la définition formelle. On se donne un espace probabilisé (Q, À, P) 
et un espace probabilisable (E, B). On définit une variable aléatoire comme une application 
X de Q dans E qui vérifie la propriété : 

VBE B,f-(B)e A. 
On dit que X est « mesurable ». On notera que la mesure de probabilité P ne joue aucun rôle 
dans cette définition (elle est « en réserve » pour la suite). 
> Probabilité image 
Étant donnés un espace probabilisé (Q, A, P), un espace probabilisable (E, B), et une variable 
aléatoire X : Q — E, la mesure P induit sur (E, B) une mesure, appelée mesure de probabilité 
image Pz , par : 

pour tout B € B: P,;(B) = P(X-!(B)). 

La notation la plus courante est P(X € B) plutôt que P,(B) ou P(X-!(B)). Cette notation 


s’adapte notamment lorsque B est un point ou un intervalle de KR, on écrira alors P(X = 3), 
P(a < x<b), P(X > 10), etc. 


Exemple On reprend le lancer de 3 pièces, décrit par l’espace Q = {PPP, PPE, PFP, PFE 
FPP, FPF PFP. FFF}. Ces 8 évènements élémentaires sont supposés équiprobables (de 


probabilité ë donc). On considère la variable aléatoire X = nombre de Pile(s), et on cherche 
la probabilité des évènements X = 2, X = 0. On a X-!({2}) = {PPF, PFP, FPP}, évènement 
de Q de probabilité Se donc P(X = 2) = : . On a X-1({0}) = {FFF}, évènement de Q de 


probabilité i , donc P(X = 0) = 


col 


> Typologie 

Une première distinction sépare les va. quantitatives, dont les valeurs sont des 
« grandeurs », nombres réels, nombres complexes ou vecteurs le plus souvent, et les v.a. 
qualitatives, dont les valeurs sont des « modalités ». La différence fondamentale est que l’on 
peut effectuer sur les premières des opérations mathématiques, des additions notamment (ce 
qui permet de définir espérance mathématique ou moyenne, etc.), et que par contre on ne 
peut pas dépasser le stade descriptif pour les secondes. 

Parmi les variables aléatoires quantitatives, les v.a. réelles sont d’une importance primordiale 
(d’autant que la généralisation aux v.a. complexes et aux v.a. vectorielles des concepts définis 
pour les v.a. réelles est le plus souvent très naturelle). Une étude théorique poussée conduit à 
identifier trois types fondamentaux de v.a. réelles, qui peuvent d’ailleurs se combiner. Mais 
dans la pratique, la quasi-totalité des variables aléatoires réelles utilisées appartient à deux 
catégories seulement. 

Première catégorie : les variables aléatoires réelles discrètes, dont les valeurs forment un 
ensemble fini ou dénombrable. La loi de ces variables aléatoires est définie par la donnée de 
l’ensemble {x;} des valeurs prises et des probabilités ponctuelles p, = P(X = x;), qui seront 
données tantôt par leur liste, tantôt par une formule permettant de les calculer. 

Deuxième catégorie : les variables aléatoires réelles absolument continues, appelées aussi 
variables aléatoires réelles à densité, cas particulier des v.a. réelles continues. On précise 
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généralement l’ensemble exact des valeurs prises (R tout entier, les réels positifs, l’intervalle 
[0, 1], etc.). La loi de ces variables aléatoires est définie, soit par leur densité f(x), soit par leur 
fonction de répartition F(x). La donnée de ces deux fonctions est bien sûr équivalente, 


uisque f(x) = F'(x) et inversement F(x) = . t)dt . Néanmoins, il arrive souvent que l’une 
puisq q 


des deux seulement ait une expression mathématique explicitable. 


variable [statistique], caractère (variable, variate) 


Grandeur (nombre réel, numéro d’ordre) ou « modalité » définie sur une « population » 
d’« individus » et susceptible d’être observée. 

Une définition formelle introduirait un premier ensemble P (une « population » d’« indi- 
vidus ») et un deuxième ensemble E (l’ensemble des « valeurs prises »), puis énoncerait 
qu’une variable statistique est une application (au sens ensembliste) de P dans E . Cette défi- 
nition formelle fait de la variable statistique (ou caractère) le concept statistique correspon- 
dant au concept probabiliste de variable aléatoire. 

Lorsqu'une étude statistique s’effectue dans un contexte clairement aléatoire (incluant la 
reproductibilité dans des conditions identiques), les mots variable aléatoire, variable statis- 
tique et caractère sont rigoureusement synonymes et interchangeables. Lorsqu'une étude 
statistique s’effectue dans un contexte privilégiant l’aspect ensemble fixé de données (par 
exemple en économie), le mot caractère est le plus fréquemment utilisé. 

Bien entendu, la typologie des variables statistiques est la même que celle des variables aléa- 
toires, notamment en ce qui concerne la distinction quantitative/qualitative et la distinction 
discrète/continue. 


Exemple Si on prend pour population le parc des automobiles européennes en circulation au 
1° janvier 2004, on peut définir sur cette population de nombreux caractères, « qualitatifs » 
(constructeur, nationalité du possesseur, etc.) ou « quantitatifs » (puissance, âge, valeur 
marchande, etc.). 


variance (décomposition de la) 
Voir décomposition de la variance. 


variance d'un échantillon statistique 

Dans une situation d’observation d’un échantillon statistique, la variance est le principal 
indicateur numérique de dispersion. Parfois qualifiée de variance observée ou de variance 
empirique, elle est définie comme la moyenne numérique des carrés des écarts entre les 
valeurs observées et leur moyenne x. 

La variance d’un échantillon d’une variable aléatoire X se note le plus souvent Var, ou Var, 


ou s? ou s2 ou Var ou s? ou 52, s’il n’y a aucun risque de confusion). 


Formule pour n observations individualisées x,, x, …, x,, la moyenne x ayant été 
préalablement calculée : 


Gi-2)2+(-) + +02) 1 
= ————————— — Fe y (x; LL x)? 
n en 
Formule pour 7 observations individuelles regroupées selon k classes d’effectif n; 
pour la valeur &;, la moyenne ayant été préalablement calculée : 
_ L L j=k 
nr = int = ne Em 0  - n; 
Re 2(G2 k\Sk : FE D? où f, = À 


7 = 


52 


n 


À 


A 


X 
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Remarque : lorsque la valeur de la variance doit intervenir dans des formules impli- 
quant des lois de probabilité (notamment pour un intervalle de confiance ou un test 
d’hypothèse), il convient de remplacer l’estimation biaisée donnée par la formule 
« descriptive » ci-dessus par l’estimation débiaisée obtenue en remplaçant le dénomi- 
nateur n par n — 1 (cf. aussi estimation ponctuelle). 


Lorsque les classes sont des intervalles Ja, a;, ,], la valeur « typique » ë; qui est utilisée dans 


A a;+a; : È Fe 
la dernière formule est celle du centre  — de la classe. Cela introduit un biais, le plus 


souvent très faible (ce biais est sans rapport avec le biais systématique évoqué juste au- 

dessus), mais qui peut être compensé par la correction de Sheppard : si a est l’amplitude (obli- 
j=k 

gatoirement supposée fixe) de chaque classe, on remplace la valeur calculée ” AC — x)? 


j=1 


i= 
Voir aussi formule de Huygens-Kônig. 


variance d'une variable aléatoire 

La variance est le principal indicateur numérique de dispersion attaché à une variable aléa- 
toire réelle. Il est associé à l’espérance mathématique. Sa signification est celle d’une 
moyenne du carré de l’écart entre la variable et son espérance, pondérée par les probabilités. 
Comme la dimension « métrologique » de la variance est le carré de la dimension de la 
variable aléatoire, il faut prendre sa racine carrée (qui est l’écart-type) pour retrouver une 
valeur interprétable concrètement. 

La variance d’une variable aléatoire X se note le plus souvent Var(X) ou 62(X) ou 6 (ou 
Var ou 6? s’il n’y a aucun risque de confusion), parfois V(X). 


Si la v.a. réelle X est discrète, caractérisée par l’ensemble (fini ou dénombrable) de 
valeurs {x;}, avec les probabilités ponctuelles p; = P(X = x;), et si son espérance 
mathématique est 1 = E(X), on a: 


Var(X) = E((X-E(X)) = Ÿ p;(x;- 1)? 


(selon les cas, il s’agira d’une somme finie ou d’une somme infinie). 
Si X est absolument continue, caractérisée par la densité de probabilité f(x), et si son 
espérance mathématique est 1 = E(X), on a : 


Var(X) = E((X - E(X))?) = he (x-u)2/(x)dx. 


Remarque : si l’ensemble des valeurs est infini, il n’y a pas de certitude que la somme 


D _pi(x;-H)? converge, ou que l'intégrale le (x-u)?f(x)dx converge, avant de 


l’avoir effectivement vérifié. Il existe des variables aléatoires qui ont une espérance 
mathématique mais qui n’ont pas de variance. 


Voir aussi formule de Huygens-Kônig. 


vraisemblance (méthode du maximum de) 


Voir maximum de vraisemblance (méthode du). 
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Weibull (loi de) 


Loi d’une variable aléatoire continue qui intervient en théorie de la fiabilité pour modéliser la 


durée de vie d’un système complexe. 


Formulaire 


Deux paramètres réels: B eR;(paramètre «de forme»), t € R° (paramètre 


d’échelle de temps). 
Valeurs sur les réels positifs. 
»> Loi de probabilité 


fA 
B<1 
B=1 
B>1 
La 
0 x 
densité 


0-1) (7) «20 


> Valeurs caractéristiques 


— espérance : E(X) = (1 + D: 
œ 


1 


— variance : Var(X) = er + 1) _ {1 + 
œ œ 


(Weibull distribution) 


fonction de répartition 


F(x) = 1- ep((:)) (x2> 0) 


1 


— écart-type : O(X) = T Jr ” 1) L {1 + 2). 
œ œ 


> Cas particulier 


Pour f = 1, on obtient la variable aléatoire exponentielle de paramètre f = L (et 
T 


d'espérance t). 


> Utilisations 


Dans la pratique, la loi de Weibull est la loi de la durée de vie d’un système complexe dont le 


B-1 
taux de défaillance est A(x) = Fee Ê() : 


1—F(x) t\t 


184 Wilcoxon (test de) 


Dans le cas particulier 8 = 1 de la loi exponentielle, le taux de défaillance est constant (et 
égal à f) : le système est « sans vieillissement ». 


Lorsque f > 1, le taux de défaillance augmente avec le temps : le système s’use ou vieillit. 


Wilcoxon (test de) (Wilcoxon [rank sum] test) 


Test d’hypothèse non paramétrique utilisé pour comparer les distributions de deux échan- 
tillons statistiques. Aussi appelé « test de la somme des rangs », il fonctionne, non pas à 
partir des valeurs précises observées, mais à partir des rangs de ces valeurs interclassées. 


Si les variables aléatoires X et Y dont proviennent respectivement les deux échantillons ont 
même loi, elles ont en particulier même espérance mathématique, et c’est très souvent 
comme test de l’hypothèse dérivée « 34 = y » que le test de Wilcoxon est utilisé. L’hypo- 


thèse (réellement testée) H, = « X et Y ont même loi » a pour conséquence immédiate la 
symétrie P(X < Y) = P(X Z Y) (si les lois sont continues, on a par surcroît P(X = Y) = 0, et 


donc P(X<Y)=P(X2>Y)= ; ). La mise en œuvre du test de Wilcoxon est une simple exploi- 


tation de cette égalité des probabilités symétriques. 


test non paramétrique de comparaison de deux lois de probabilité, ——— 
également utilisé pour comparer deux espérances mathématiques 11, et 1, 


+ Données. Deux séries : 
— un échantillon (x;, x, …., Xnx) de ñn, valeurs observées d’une variable aléatoire numé- 
rique X d’espérance mathématique Lx ; 
— un échantillon (y;, y2, …, Yny) de ny valeurs observées d’une variable aléatoire numé- 
rique Ÿ d’espérance mathématique LL. 


+ Hypothèse réellement testée. H, = « X et Y ont même loi » contre H, alternative. 
+ Hypothèse dérivée. H, = «1,4 = 11 » contre H, = «Hyx Æ#Hy ». 
+ Déroulement technique du test 
1. On classe les n3 + ny valeurs observées par ordre croissant. 
2. On calcule la somme W,, des rangs des valeurs de la variable X (s’il y a des ex æquo, 
on leur attribue le rang moyen). 
3. On calcule la valeur observée de la variable de test : 
nx(nx + ny +1) 
nxny(nx +ny+ 1) 
J 12 


Les valeurs de référence de la variable de test sont à lire, soit dans des tables spécifiques pour 
les petites valeurs de n, et ny, soit dans la table de la loi normale (centrée réduite), pour le 
risque bilatéral oc. 


vs 
W = 


+ Conditions et précautions 
— Il n’y a aucune condition sur la loi commune à X et Y ; 


— par contre, la loi normale (centrée réduite) est la loi limite pour la variable de test, ce 
qui induit une condition de taille si l’on ne dispose pas de table spécifique ; il est clas- 
sique de demander n3 et ny 2 10 pour pouvoir se référer à la table de la loi normale. 
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Il règne un certain flottement dans l’appellation de ce test. Il existe en effet un test de Mann- 
Whitney qui teste les mêmes hypothèses dans la même situation, en comptant les inversions 
du classement au lieu de faire la somme des rangs. Ces deux tests sont complètement équiva- 
lents (la variable W, du test de Wilcoxon et la variable U,,, du test de Mann-Whitney sont 


hées par la relation U;Xx = Wy - ; nx(nx + 1)). Dans certains ouvrages, les appellations sont 


permutées. Par ailleurs, on trouve aussi l’appellation « test de Wilcoxon » sans précision 
pour un précurseur historique qui fonctionne sur des séries appariées, cf. juste ci-dessous. 


Wilcoxon (test de - pour les séries appariées) (Wilcoxon signed 
rank test) 


Test d’hypothèse non paramétrique utilisé pour contrôler l’absence de « différence systéma- 
tique » dans un échantillon statistique constitué « par paires ». 

La situation de base este celle de couples de variables numériques (X;, Y;), dont chacun 
donnera lieu à une observation couplée. Les lois des X; et des Y; ne font pas l’objet d’un 
présupposé d’uniformité et l’on postule seulement que les différences D; = Y; — X; suivent 
toutes la loi d’une même variable Z, et l’hypothèse H, est la symétrie de cette loi. Cette 
symétrie peut être contrôlée par le test des signes, qui ne prend en compte que les signes des 
différences. Comme le test de Wilcoxon prend aussi en compte l’ampleur des différences (à 
travers leur rang de classement), il est meilleur que le test des signes (mais il n’en a pas la 
simplicité et la rapidité « manuelle »). 

Pour l’utilisation pratique du test de Wilcoxon pour les séries appariées, voir test des signes. 


test bilatéral non paramétrique de symétrie 
de la loi d'une différence de variables 
+ Données. Deux séries appariées : un échantillon double ((x1, y1), (2, ya), .…., (xs y,)) den 


valeurs couplées de deux variables aléatoires numériques dont les différences suivent toutes 
la loi d’une même variable Z. 


+ Hypothèse testée. H, = « la loi de Z est symétrique » contre H, alternative. 


+ Déroulement technique du test 
1. On calcule les différences d, = y; — x; et on les range par valeurs absolues croissantes. 
2. On calcule la somme W des rangs des différences positives (s’il y a des ex æquo, on 
leur attribue le rang moyen). 
3. On calcule la valeur observée de la variable de test : 


w _2(1+1) 
4 


in(n+1)(2n+1) 
24 


Les valeurs de référence de la variable de test sont à lire soit dans des tables spécifi- 
ques pour les petites valeurs de n, soit dans la table de la loi normale (centrée réduite), 
pour le risque bilatéral ©. 


W = 


+ Conditions et précautions. Aucunes. 


de Witt (Jan) 


Homme d’état hollandais (1625-1672). Il effectua le premier calcul de rentes viagères. 


M I! 


À 


Yates (correction [de continuité] de) (Yates correction) 


Dans un test du khi-deux d’indépendance ou d’homogénéité à quatre classes (2 X 2), 
correction qui permet de faire fonctionner le test même lorsque la condition sur l’effectif 
npi 25 n’est pas respectée : si tous les np;; sont 2 3, on remplace : 


1 2 
> Se par 2 L 5 | 


pe nP;j 


Cette correction, _ est le simple décalque de certaines formules où l’on approxime une loi 
discrète (notamment binomiale) par une loi continue, n’a pas de justification théorique et ne 
fait pas l’unanimité. Elle a néanmoins pour avantage de diminuer la valeur du khi-deux et de 
prémunir contre un rejet trop hâtif de l’hypothèse H,,. 


Yule (conditions de) (Yule conditions) 
Critères de qualité globale pour un indicateur statistique (de tendance centrale, de disper- 
sion, ...). Dans un ordre qui est à peu près celui de l’importance, ce sont : 

— être défini de façon objective ; 

— dépendre de toutes les observations (pour avoir une signification « exhaustive » et aussi 
pour assurer une convergence de fait lorsque la taille de l’échantillon augmente) ; 

— être peu sensible aux valeurs extrêmes (sur ce critère comme sur le précédent, le centre et 
l’étendue sont médiocres) ; 

— avoir une signification concrète ; 

— se prêter au calcul algébrique (ou plutôt figurer naturellement dans les théorèmes et 
formules du calcul des probabilités : supériorité par exemple de la moyenne sur la médiane 
ou le mode) ; 

— être simple à calculer ; 

— être peu sensible aux fluctuations d’échantillonnage. 
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z (test) 


Nom parfois donné au test de Student lorsqu'il est appliqué à un échantillon de « grande 
taille » (classiquement n 2 30) et que la table de référence du test est la table de la loi normale 
et non la table de la loi de Student. 


zéro-un (loi du - de Kolmogorov) (zero-one Kolmogorov law) 


Théorème qui énonce que, sous certaines conditions, certains évènements (qui sont souvent 
des évènements très intéressants dans la pratique) relatifs à une suite infinie de variables 
aléatoires indépendantes ne peuvent pas avoir une probabilité autre que 0 ou 1. 

Pour donner l’énoncé de ce théorème, il faut préalablement définir la notion d’« évènement 
de queue » : étant donnée une suite infinie (X,) de variables aléatoires, on appelle évènement 
de queue tout évènement global qui n’est pas modifié si l’on modifie un nombre fini d’évène- 
ments de la suite (par exemple « pour n assez grand (traduction formelle : 70 n > no .….), on 
a telle ou telle propriété de X, »). 

L’énoncé du théorème (« loi ») de Kolmogorov est alors : étant donnée une suite infinie de 
variables aléatoires indépendantes, un évènement de queue ne peut pas avoir une probabilité 
autre que 0 ou 1. 

Voir Borel-Cantelli (lemme de). 


Zipf (loi de) (Zipf distribution) 


Loi empirique qui régit notamment la fréquence des mots dans une langue. Cette loi a été 
découverte en 1936 par le sociologue américain G. K. Zipf. Elle énonce que, si l’on classe les 
mots par ordre de fréquences décroissantes, la fréquence du k-ième mot est approximativement 


proportionelle à ; ; 


Cette loi semble particulièrement adaptée aux évènements qui sont très nombreux et de 
probabilité ou de fréquence très faiblement décroissantes au-delà des tout premiers. Par 
exemple, elle rend bien compte des populations des villes d’un pays (ou du Globe) — étant 
entendu que l’on peut convertir une population en probabilité d’appartenance d’un citoyen 
tiré au hasard. 
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Table 1 


Loi normale centrée réduite //(0, 1) 


Table de la fonction de répartition 


Probabilité d’avoir une valeur inférieure à x : 


(x) = P(X<x) = — e-*/2dt 
27 
0 x ss 
X 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 
0,00 |0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359 
0,10 |0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753 
0,20 |0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141 
0,30 |0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517 
0,40 |0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879 
0,50 |0,6915 0,6950 0,6985 0,7019 O0,7054 0,7088 0,7123 0,7157 0,7190 0,7224 
0,60 |0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549 
0,70 |0,7580 0,7611 0,7642 0,7673 O0,7704 0,7734 0,7764 0,7794 0,7823 0,7852 
0,80 |0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133 
0,90 |0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389 
1,00 |0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621 
1,10 |0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830 
1,20 |0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015 
1,30 |0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177 
1,40 |0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319 
1,50 |0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441 
1,60 |0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545 
1,70 |0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633 
1,80 |0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706 
1,90 |0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767 
2,00 |0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817 
2,10 |0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857 
2,20 |0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890 
2,30 |0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916 
2,40 |0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936 
2,50 |0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952 
2,60 |0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964 
2,70 |0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974 
2,80 |0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981 
2,90 |0,9981 0,9982 0,9982 0,9984 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986 


Pour x < 0 prendre le complément à 1 de la valeur lue dans la table pour -x : 


TI(x) = 1 - (x 


S114VL 


TABLES 


190 


Probabilité et statistique de À à Z 


Table pour les grandes valeurs de x 


3,0 3;1 3,2 3,3 3,4 3,5 3,6 3,7 
0,998 650 0,999 032 0,999 313 0,999 517 0,999 663 0,999 767 0,999 841 0,999 892 


0,001 350 0,000 968 0,000 687 0,000 483 0,000 337 0,000 233 0,000 159 0,000 108 


3,8 3,9 4,0 4,1 4,2 4,3 4,4 4,5 


0,998 928 0,999 952 0,999 968 0,999 979 0,999 987 0,999 991 0,999 995 0,999 997 


0,000 072 0,000 048 0,000 032 0,000 021 0,000 013 0,000 009 0,000 005 0,000 003 


© Dunod — La photocopie non autorisée est un délit. 


Tables 191 
Table 2 
Loi normale centrée réduite \(0, 1) 
Table de dépassement de l'écart absolu 

En fonction d’une probabilité © ; valeur de 

l’écart x qui possède la probabilité © d’être 

dépassé en valeur absolue : 

P(IX|>x)=0@ 
—X X 
œ 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 

0,00 co 2,576 2,326 2,170 2,054 1,960 1,881 1,812 1,751 1,695 
0,10 1,645 1,598 1,555 1,514 1,476 1,440 1,405 1,372 1,341 1,311 
0,20 1,282 1,254 1,227 1,200 1,175 1,150 1,126 1,103 1,080 1,058 
0,30 1,036 1,015 0,994 0,974 0,954 0,935 0,915 0,896 0,878 0,860 
0,40 0,842 0,824 0,806 0,789 0,772 0,755 0,739 0,722 0,706 0,690 
0,50 0,674 0,659 0,643 0,628 0,613 0,598 0,583 0,568 0,553 0,539 
0,60 0,524 0,510 0,496 0,482 0,468 0,454 0,440 0,426 0,412 0,399 
0,70 0,385 0,372 0,358 0,345 0,332 0,319 0,305 0,292 0,279 0,266 
0,80 0,253 0,240 0,228 0,215 0,202 0,189 0,176 0,164 0,151 0,138 
0,90 0,126 0,113 0,100 0,088 0,075 0,063 0,050 0,038 0,025 0,013 


Table pour les petites valeurs de à 


œ X œ X 
0,000 000 001 6,109 
0,000 1 3,891 
0,000 000 01 5,730 0,000 2 3,719 
0,000 000 02 5,612 0,000 5 3,481 
0,000 000 05 5,451 
0,001 3,291 
0,000 000 1 5,327 0,002 3,090 
0,000 000 2 5,199 0,003 2,968 
0,000 000 5 5,026 0,004 2,878 
0,005 2,807 
0,000 001 4,892 0,006 2,748 
0,000 002 4,753 0,007 2,696 
0,000 005 4,565 0,008 2,652 
0,009 2,612 
0,000 01 4,417 
0,000 02 4,265 0,010 2,576 
0,000 05 4,056 


S114VL 


TABLES 


192 


Probabilité et statistique de À à Z 


Table 3 


Loi de Student 
Table de dépassement de l'écart absolu 


En fonction du nombre ddl de degrés de liberté 
et d’une probabilité ©: : valeur de l’écart f qui 
possède la probabilité 


valeur absolue. 


ox d’être dépassé en 


La 
-t 0 t 
@| 0,50 0,20 0,10 0,05 0,02 0,01 0,005 0,002 0,001 0,0001 
ddi 
1] 1,000 3,078 6,314 12,706 31,821 63,657 127,32 318,31 636,62 6366,2 
21 0,816 1,886 2,920 4,303 6,965 9,925 14,089 22,327 34,599 99,992 
31 0,765 1,638 2,353 3,182 4,541 5,841 7,453 10,215 12,924 28,000 
4) 0,741 1,533 2,132 2,776 3,747 4,604 5.598 7,173 8,610 15,544 
5| 0,727 1,476 2,015 2,571 3,365 4,032 4,773 5,893 6,869 11,178 
6| 0,718 1,440 1,943 2,447 3,143 3,707 4,317 5,208 5,959 9.082 
71 0,711 1,415 1,895 2,365 2,998 3,499 4,029 4,785 5,408 7,885 
8| 0,706 1,397 1,860 2,306 2,896 3,355 3,833 4,501 5,041 7,120 
9] 0,703 1,383 1,833 2,262 2,821 3,250 3,690 4,297 4,781 6,594 
10! 0,700 1,372 1,812 2,228 2,764 3,169 3,581 4,144 4,587 6,211 
11] 0,697 1,363 1,796 2,201 2,718 3,106 3,497 4,025 4,437 5,921 
12] 0,695 1,356 1,782 2,179 2,681 3,055 3,428 3,930 4,318 5,694 
13] 0,694 1,350 1,771 2,160 2,650 3,012 3,372 3,852 4,221 5,513 
14] 0,692 1,345 1,761 2,145 2,624 2,977 3,326 3,787 4,140 5,363 
15] 0,691 1,341 1,753 2,131 2,602 2,947 3,286 3,733 4,073 5,239 
16| 0,690 1,337 1,746 2,120 2,583 2,921 3,252 3,686 4,015 5,134 
17. 0,689 1,333 1,740 2,110 2,567 2,898 3,222 3,646 3,965 5,044 
18| 0,688 1,330 1,734 2,101 2,552 2,878 3,197 3,610 3,922 4,966 
19] 0,688 1,328 1,729 2,093 2,539 2,861 3,174 3,579 3,883 4,897 
20! 0,687 1,325 1,725 2,086 2,528 2,845 3,153 3,552 3,850 4,837 
21| 0,686 1,323 1,721 2,080 2,518 2,831 3,135 3,527 3,819 4,784 
221 0,686 1,321 1,717 2,074 2,508 2,819 3,119 3,505 3,792 4,736 
23| 0,685 1,319 1,714 2,069 2,500 2,807 3,104 3,485 3,768 4,693 
241 0,685 1,318 1,711 2,064 2,492 2,797 3,091 3,467 3,745 4,654 
25| 0,684 1,316 1,708 2,060 2,485 2,787 3,078 3,450 3,725 4,619 
30| 0,683 1,310 1,697 2,042 2,457 2,750 3,030 3,385 3,646 4,482 
35| 0,682 1,306 1,690 2,030 2,438 2,724 2,996 3,340 3,591 4,389 
40) 0,681 1,303 1,684 2,021 2,423 2,704 2,971 3,307 3,551 4,321 
45] 0,680 1,301 1,679 2,014 2,412 2,690 2,952 3,281 3,520 4,269 
50| 0,679 1,299 1,676 2,009 2,403 2,678 2,937 3,261 3,496 4,228 
60! 0,679 1,296 1,671 2,000 2,390 2,660 2,915 3,232 3,460 4,169 
70! 0,678 1,294 1,667 1,994 2,381 2,648 2,899 3,211 3,435 4,127 
80) 0,678 1,292 1,664 1,990 2,374 2,639 2,887 3,195 3,416 4,096 
90! 0,677 1,291 1,662 1,987 2,368 2,632 2,878 3,183 3,402 4,072 
100 | 0,677 1,290 1,660 1,984 2,364 2,626 2,871 3,174 3,390 4,053 
150] 0,676 1,287 1,655 1,976 2,351 2,609 2,849 3,145 3,357 3,998 
200) 0,676 1,286 1,653 1,972 2,345 2,601 2,839 3,131 3,340 3,970 
300) 0,675 1,284 1,650 1,968 2,339 2,592 2,828 3,118 3,323 3,944 
500! 0,675 1,283 1,648 1,965 2,334 2,586 2,820 3,107 3,310 3,922 
1000! 0,675 1,282 1,646 1,962 2,330 2,581 2,813 3,098 3,300 3,906 
| 0,674 1,282 1,645 1,960 2,326 2,576 2,807 3,090 3,291 3,891 
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Tables 


Valeurs critiques du coefficient de corrélation linéaire p 


Table de la valeur absolue qui possède une probabilité 
donnée d'être dépassée (échantillon normal) 


En fonction du nombre ddl de degrés de liberté (égal à ñn — 2 pour une corrélation simple) et 
d’une probabilité & : valeur de r qui possède la probabilité & d’être dépassée en valeur 


absolue, soit P(|p| > r) = ©. 


Table 4 


o 0,10 0,05 0,01 
ddl 
1 0,9877 0,9969 0,9999 
2 0,9000 0,9500 0,9900 
3 0,8054 0,8783 0,9587 
4 0,7293 0,8114 0,9172 
5 0,6694 0,7545 0,8745 
6 0,6215 0,7067 0,8343 
7 0,5822 0,6664 0,7977 
8 0,5494 0,6319 0,7646 
9 0,5214 0,6021 0,7348 
10 0,4973 0,5760 0,7079 
11 0,4762 0,5529 0,6835 
12 0,4575 0,5324 0,6614 
13 0,4409 0,5139 0,6411 
14 0,4259 0,4973 0,6226 
15 0,4124 0,4821 0,6055 
16 0,4000 0,4683 0,5897 
17 0,3887 0,4555 0,5751 
18 0,3783 0,4438 0,5614 
19 0,3687 0,4329 0,5487 
20 0,3598 0,4227 0,5368 
21 0,3515 0,4132 0,5256 
22 0,3438 0,4044 0,5151 
23 0,3365 0,3961 0,5052 
24 0,3297 0,3882 0,4958 
25 0,3233 0,3809 0,4869 
30 0,2960 0,3494 0,4487 
35 0,2746 0,3246 0,4182 
40 0,2573 0,3044 0,3932 
45 0,2428 0,2875 0,3721 
50 0,2306 0,2732 0,3541 
60 0,2108 0,2500 0,3248 
70 0,1954 0,2319 0,3017 
80 0,1829 0,2172 0,2830 
90 0,1726 0,2050 0,2673 
100 0,1638 0,1946 0,2540 
1,645 1,960 2,576 
ddl > 100 ddr +1 ddr +1 dt + 1 
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Probabilité et statistique de À à Z 


En fonction du nombre ddl de degrés de liberté 
et d’une probabilité & : valeur de l’écart #2? qui 


Loi du khi-deux 
Table de dépassement de l'écart 


Table 5 


possède la probabilité ot d’être dépassée. 


0 2 ss 
ne 0,999 0,99 0,95 0,90 0,50 0,10 0,05 0,01 0,001 
1 0,000002 0,00016 0,00393 0,0158 | 0,455 2,706 3,841 6,635 10,828 
2 0,00200 0,0201 0,103 0,211 1,386 4,605 5,991 9,210 13,816 
3 0,0243 0,115 0,352 0,584 2,366 6,251 7,815 11,345 16,266 
4 0,0908 0,297 0,711 1,064 3,357 7,779 9,488 13,277 18,467 
5 0,210 0,554 1,145 1,610 4,351 9,236 11,070 15,086 20,515 
6 0,381 0,872 1,635 2,204 5,348 | 10,645 12,592 16,812 22,458 
7 0,598 1,239 2,167 2,833 6,346 | 12,017 14,067 18,475 24,322 
8 0,857 1,646 2,733 3,490 7,344 | 13,362 15,507 20,090 26,124 
9 1,152 2,088 3,325 4,168 8,343 | 14,684 16,919 21,666 27,877 
10 1,479 2,558 3,940 4,865 9,342 | 15,987 18,307 23,209 29,588 
11 1,834 3,053 4,575 5,578 10,341 | 17,275 19,675 24,725 31,264 
12 2,214 3,571 5,226 6,304 | 11,340 | 18,549 21,026 26,217 32,909 
13 2,617 4,107 5,892 7,042 | 12,340 | 19,812 22,362 27,688 34,528 
14 3,041 4,660 6,571 7,790 | 13,339 | 21,064 23,685 29,141 36,123 
15 3,483 5,229 7,261 8,547 | 14,339 | 22,307 24,996 30,578 37,697 
16 3,942 5,812 7,962 9,312 | 15,338 | 23,542 26,296 32,000 39,252 
17 4,416 6,408 8,672 10,085 | 16,338 | 24,769 27,587 33,409 40,790 
18 4,905 7,015 9,390 10,865 | 17,338 | 25,989 28,869 34,805 42,312 
19 5,407 7,633 10,117 11,651 | 18,338 | 27,204 30,144 36,191 43,820 
20 5,921 8,260 10,851 12,443 | 19,337 | 28,412 31,410 37,566 45,315 
21 6,447 8,897 11,591 13,240 | 20,337 | 29,615 32,671 38,932 46,797 
22 6,983 9,542 12,338 14,041 | 21,337 | 30,813 33,924 40,289 48,268 
23 7,529 10,196 13,091 14,848 | 22,337 | 32,007 35,172 41,638 49,728 
24 8,085 10,856 13,848 15,659 | 23,337 | 33,196 36,415 42,980 51,179 
25 8,649 11,524 14,611 16,473 | 24,337 | 34,382 37,652 44,314 52,620 
30 11,59 14,95 18,49 20,60 29,34 40,26 43,77 50,89 59,70 
35 14,69 18,51 22,47 24,80 34,34 46,06 49,80 57,34 66,62 
40 17,92 22,16 26,51 29,05 39,34 51,81 55,76 63,69 73,40 
45 21,25 25,90 30,61 33,35 44,34 57,51 61,66 69,96 80,08 
50 24,67 29,71 34,76 37,69 49,33 63,17 67,50 76,15 86,66 
60 31,74 37,48 43,19 46,46 59,33 74,40 79,08 88,38 99,61 
70 39,04 45,44 51,74 55,33 69,33 85,53 90,53 100,43 112,32 
80 46,52 53,54 60,39 64,28 79,33 96,58 101,88 112,33 124,84 
90 54,16 61,75 69,13 73,29 89,33 107,57 113,15 124,12 137,21 
100 61,92 70,06 77,93 82,36 99,33 | 118,50 124,34 135,81 149,45 


Nota : pour effectuer un test du khi-deux, seule la partie droite de la table est utile ; pour 
calculer un intervalle de confiance pour une variance (échantillon normal) ou pour effectuer 
un test de quotient de variances (échantillons normaux), les valeurs pour les probabilités 


complémentaires & et 1-0 sont simultanément utilisées. 
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Table 6a 
Loi du F de Fisher-Snedecor 
Table de l'écart ayant une probabilité 0,05 de dépassement 

En fonction des nombres de degrés de liberté v. 

et V : valeur de l’écart de la variable F(v1, w) 

qui possède la probabilité 0,05 d’être dépassée. 

0,95 0,05 
Lo 
0 F 
Wl 1 2 3 4 5 6 7 8 9 10 12 15 20 30 40 50 100 + 

V2 
1 |161 200 216 225 230 234 237 239 241 242 244 246 248 250 251 252 253 254 
2 |18,5 19,0 19,2 19,2 19,3 19,3 19,4 19,4 19,4 19,4 19,4 19,4 19,4 19,5 19,5 19,5 19,5 19,5 
3 |10,1 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,74 8,70 8,66 8,62 8,59 8,58 8,55 8,53 
4 |7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,91 5,86 5,80 5,75 5,72 5,70 5,66 5,63 
5 16,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,68 4,62 4,56 4,50 4,46 4,44 4,41 4,37 
6 |5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,00 3,94 3,87 3,81 3,77 3,75 3,71 3,67 
7 15,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,57 3,51 3,44 3,38 3,34 3,32 3,27 3,23 
8 |5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,28 3,22 3,15 3,08 3,04 3,02 2,97 2,93 
9 |5,12 4,26 3,86 3,63 3,48 3,27 3,29 3,23 3,18 3,14 3,07 3,01 2,94 2,86 2,83 2,80 2,76 2,71 
10 |4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,91 2,85 2,77 2,70 2,66 2,64 2,59 2,54 
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,79 2,72 2,65 2,57 2,53 2,51 2,46 2,40 
12 |4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,69 2,62 2,54 2,47 2,43 2,40 2,35 2,30 
13 |4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,60 2,53 2,46 2,38 2,34 2,31 2,26 2,21 
14 |4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,53 2,46 2,39 2,31 2,27 2,24 2,19 2,13 
15 |4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,48 2,40 2,33 2,25 2,20 2,18 2,12 2,07 
16 |4,49 3,63 3,23 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,42 2,35 2,28 2,19 2,15 2,12 2,07 2,01 
17 |4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,38 2,31 2,23 2,15 2,10 2,08 2,02 1,96 
18 |4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,34 2,27 2,19 2,11 2,06 2,04 1,98 1,92 
19 |4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,31 2,23 2,16 2,07 2,03 2,00 1,94 1,88 
20 |4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,28 2,20 2,12 2,04 1,99 1,97 1,91 1,84 
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,16 2,09 2,01 1,92 1,87 1,84 1,78 1,71 
30 |4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,09 2,01 1,93 1,84 1,79 1,76 1,70 1,62 
35 4,12 3,27 2,87 2,64 2,49 2,37 2,29 2,22 2,16 2,11 2,04 1,96 1,88 1,79 1,74 1,70 1,63 1,56 
40 |4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,00 1,92 1,84 1,74 1,69 1,66 1,59 1,51 
45 |4,05 3,20 2,81 2,58 2,42 2,31 2,22 2,15 2,10 2,05 1,97 1,89 1,81 1,71 1,66 1,63 1,55 1,47 
50 |4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,95 1,87 1,78 1,69 1,63 1,60 1,52 1,44 
55 |4,02 3,16 2,77 2,54 2,38 2,27 2,18 2,11 2,06 2,01 1,93 1,85 1,76 1,67 1,61 1,58 1,50 1,41 
60 14,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,92 1,84 1,75 1,65 1,59 1,56 1,48 1,39 
65 13,99 3,14 2,75 2,51 2,36 2,24 2,15 2,08 2,03 1,98 1,90 1,82 1,73 1,63 1,58 1,54 1,46 1,37 
70 |3,98 3,13 2,74 2,50 2,35 2,23 2,14 2,07 2,02 1,97 1,89 1,81 1,72 1,62 1,57 1,53 1,45 1,35 
75 3,97 3,12 2,73 2,49 2,34 2,22 2,13 2,06 2,01 1,96 1,88 1,80 1,71 1,61 1,55 1,52 1,44 1,34 
80 |3,96 3,11 2,72 2,49 2,33 2,21 2,13 2,06 2,00 1,95 1,88 1,79 1,70 1,60 1,54 1,51 1,43 1,32 
85 |3,95 3,10 2,71 2,48 2,32 2,21 2,12 2,05 1,99 1,94 1,87 1,79 1,70 1,59 1,54 1,50 1,42 1,31 
90 3,95 3,10 2,71 2,47 2,32 2,20 2,11 2,04 1,99 1,94 1,86 1,78 1,69 1,59 1,53 1,49 1,41 1,30 
95 |3,94 3,09 2,70 2,47 2,31 2,20 2,11 2,04 1,98 1,93 1,86 1,77 1,68 1,58 1,53 1,48 1,40 1,29 
100 |3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,85 1,77 1,68 1,57 1,52 1,48 1,39 1,28 
150 |3,90 3,06 2,66 2,43 2,27 2,16 2,07 2,00 1,94 1,89 1,82 1,73 1,64 1,54 1,48 1,44 1,34 1,22 
200 |3,89 3,04 2,65 2,42 2,26 2,14 2,06 1,98 1,93 1,88 1,80 1,72 1,62 1,52 1,46 1,41 1,32 1,19 
300 |3,87 3,03 2,63 2,40 2,24 2,13 2,04 1,97 1,91 1,86 1,78 1,70 1,61 1,50 1,43 1,39 1,30 1,15 
500 |3,86 3,01 2,62 2,39 2,23 2,12 2,03 1,96 1,90 1,85 1,77 1,69 1,59 1,48 1,42 1,38 1,28 1,11 
1000 |3,85 3,00 2,61 2,38 2,22 2,11 2,02 1,95 1,89 1,84 1,76 1,68 1,58 1,47 1,41 1,36 1,26 1,08 
 |3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,75 1,67 1,57 1,46 1,39 1,35 1,24 1,00 
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Probabilité et statistique de À à Z 


Table 6b 


Loi du F de Fisher-Snedecor 


Table de l'écart ayant une probabilité 0,01 de dépassement 


En fonction des nombres de degrés de liberté v: 
et V2 : valeur de l’écart de la variable F(v1, W) 
qui possède la probabilité 0,01 d’être dépassée. 


0,99 0,01 
LS 
0 F 
Vi) 1 2 3 4 5 6 7 8 9 10 12 15 20 30 40 50 100 
V2 
1 4052 5000 5403 5625 5764 5859 5928 5981 6022 6056 6106 6157 6209 6261 6287 6303 6334 6366 
2 98,5 99,0 99,2 99,2 99,3 99,3 99,4 99,4 99,4 99,4 99,4 99,4 99,4 99,5 99,5 99,5 99,5 99,5 
3 34,1 30,8 29,5 28,7 28,2 27,9 27,7 27,5 27,3 27,2 27,1 26,9 26,7 26,5 26,4 26,4 26,2 26,1 
4 21,2 18,0 16,7 16,0 15,5 15,2 15,0 14,8 14,7 14,5 14,4 14,2 14,0 13,8 13,7 13,7 13,6 13,5 
5 16,3 13,3 12,1 11,4 11,0 10,7 10,5 10,3 10,2 10,1 9,89 9,72 9,55 9,38 9,29 9,24 9,13 9,02 
6 13,7 10,9 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,72 7,56 7,40 7,23 7,14 7,09 6,99 6,88 
7 12,2 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,47 6,31 6,16 5,99 5,91 5,86 5,75 5,65 
8 11,3 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,67 5,52 5,36 5,20 5,12 5,07 4,96 4,86 
9 10,6 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,11 4,96 4,81 4,65 4,57 4,52 4,41 4,31 
10 10,0 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,71 4,56 4,41 4,25 4,17 4,12 4,01 3,91 
11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,40 4,25 4,10 3,94 3,86 3,81 3,71 3,60 
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,16 4,01 3,86 3,70 3,62 3,57 3,47 3,36 
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 3,96 3,82 3,66 3,51 3,43 3,38 3,27 3,17 
14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,80 3,66 3,51 3,35 3,27 3,22 3,11 3,00 
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,67 3,52 3,37 3,21 3,13 3,08 2,98 2,87 
16 18,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,55 3,41 3,26 3,10 3,02 2,97 2,86 2,75 
17 8,40 6,11 5,19 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,46 3,31 3,16 3,00 2,92 2,87 2,76 2,65 
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,37 3,23 3,08 2,92 2,84 2,78 2,68 2,57 
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,30 3,15 3,00 2,84 2,76 2,71 2,60 2,49 
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,23 3,09 2,94 2,78 2,69 2,64 2,54 2,42 
25 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22 3,13 2,99 2,85 2,70 2,54 2,45 2,40 2,29 2,17 
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,84 2,70 2,55 2,39 2,30 2,25 2,13 2,01 
35 17,42 5,27 4,40 3,91 3,59 3,37 3,20 3,07 2,96 2,88 2,74 2,60 2,44 2,28 2,19 2,14 2,02 1,89 
40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,66 2,52 2,37 2,20 2,11 2,06 1,94 1,80 
45 7,23 5,11 4,25 3,77 3,45 3,23 3,07 2,94 2,83 2,74 2,61 2,46 2,31 2,14 2,05 2,00 1,88 1,74 
50 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,78 2,70 2,56 2,42 2,27 2,10 2,01 1,95 1,82 1,68 
55 7,12 5,01 4,16 3,68 3,37 3,15 2,98 2,85 2,75 2,66 2,53 2,38 2,23 2,06 1,97 1,91 1,78 1,64 
60 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,50 2,35 2,20 2,03 1,94 1,88 1,75 1,60 
65 7,04 4,95 4,10 3,62 3,31 3,09 2,93 2,80 2,69 2,61 2,47 2,33 2,17 2,00 1,91 1,85 1,72 1,57 
70 7,01 4,92 4,07 3,60 3,29 3,07 2,91 2,78 2,67 2,59 2,45 2,31 2,15 1,98 1,89 1,83 1,70 1,54 
75 6,99 4,90 4,05 3,58 3,27 3,05 2,89 2,76 2,65 2,57 2,43 2,29 2,13 1,96 1,87 1,81 1,67 1,52 
80 6,96 4,88 4,04 3,56 3,26 3,04 2,87 2,74 2,64 2,55 2,42 2,27 2,12 1,94 1,85 1,79 1,65 1,49 
85 16,94 4,86 4,02 3,55 3,24 3,02 2,86 2,73 2,62 2,54 2,40 2,26 2,10 1,93 1,83 1,77 1,64 1,47 
90 6,93 4,85 4,01 3,53 3,23 3,01 2,84 2,72 2,61 2,52 2,39 2,24 2,09 1,92 1,82 1,76 1,62 1,46 
95 16,91 4,84 3,99 3,52 3,22 3,00 2,83 2,70 2,60 2,51 2,38 2,23 2,08 1,90 1,81 1,75 1,61 1,44 
100 16,90 4,82 3,98 3,51 3,21 2,99 2,82 2,69 2,59 2,50 2,37 2,22 2,07 1,89 1,80 1,74 1,60 1,43 
150 16,81 4,75 3,91 3,45 3,14 2,92 2,76 2,63 2,53 2,44 2,31 2,16 2,00 1,83 1,73 1,66 1,52 1,33 
200 6,76 4,71 3,88 3,41 3,11 2,89 2,73 2,60 2,50 2,41 2,27 2,13 1,97 1,79 1,69 1,63 1,48 1,28 
300 16,72 4,68 3,85 3,38 3,08 2,86 2,70 2,57 2,47 2,38 2,24 2,10 1,94 1,76 1,66 1,59 1,44 1,22 
500 16,69 4,65 3,82 3,36 3,05 2,84 2,68 2,55 2,44 2,36 2,22 2,07 1,92 1,74 1,63 1,57 1,41 1,16 
1000 16,66 4,63 3,80 3,34 3,04 2,82 2,66 2,53 2,43 2,34 2,20 2,06 1,90 1,72 1,61 1,54 1,38 1,11 
co 6,63 4,61 3.78 3,31 3,02 2,80 2,64 2,51 2,41 2,32 2,18 2,04 1,88 1,70 1,59 1,52 1,36 1,00 
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Statistique des rangs de Wilcoxon 


Table des valeurs critiques 


Table 7 


On désigne par n, la taille du plus petit des deux échantillons et par n, la taille du plus grand. 


La variable aléatoire W (= W(z., ñn,)) est la somme des rangs du plus petit échantillon. 


1. Valeurs critiques unilatérales inférieures 


Les valeurs w (= w(n1, m2, ©&)) données dans la table sont définies par : 


P(W<w)<a et P(W<w+1)>@ 


Table pour «& = 0,025 


ns 2 3 4 5 6 7 8 9 10 
n2 
1 
2 _ 
3 _ _ 
4 - _ 10 
5 - 6 11 17 
6 _ 7 12 18 26 
7 _ A 13 20 27 36 
8 3 8 14 21 29 38 49 
9 3 8 14 22 31 40 51 62 
10 3 9 15 23 32 42 53 65 78 
11 3 9 16 24 34 44 55 68 81 
12 4 10 17 26 35 46 58 71 84 
13 4 10 18 27 37 48 60 73 88 
14 4 11 19 28 38 50 62 76 91 
15 4 11 20 29 40 52 65 79 94 
16 4 12 21 30 42 54 67 82 97 
17 5 12 21 32 43 56 70 84 100 
18 5 13 22 33 45 58 72 87 103 
19 5 13 23 34 46 60 74 90 107 
20 5 14 24 35 48 52 77 93 110 
21 6 14 25 37 50 64 79 95 113 
22 6 15 26 38 51 66 81 98 116 
23 6 15 27 39 53 68 84 101 119 
24 6 16 27 40 54 70 86 104 122 
25 6 16 28 42 56 72 89 107 126 
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Table pour à = 0,05 


ns 1 2 3 4 5 6 7 8 9 10 
m2 
1 _ 
5 = _ 
3 _ _ 6 
4 — _ 6 11 
5 _- 3 7 12 19 
6 _ 3 8 13 20 28 
7 - 3 8 14 21 30 39 
8 _ 4 9 15 23 31 41 51 
9 _ 4 10 16 24 33 43 54 66 
10 - 4 10 17 26 35 45 56 69 82 
11 _ 4 11 18 27 37 47 59 72 86 
12 _ 5 11 19 28 38 49 62 75 89 
13 - 5 12 20 30 40 52 64 78 92 
14 _ 6 12 21 31 42 54 67 81 96 
15 _ 6 13 22 33 44 56 69 84 99 
16 _ 6 14 24 34 46 58 72 87 103 
17 _ 6 15 25 35 47 61 75 90 106 
18 _ 7 15 26 37 49 63 77 93 110 
19 1 7 16 27 38 51 65 80 96 113 
20 1 7 17 28 40 53 67 83 99 117 
21 1 8 17 29 41 55 69 85 102 120 
22 1 8 18 30 43 57 72 88 105 123 
23 1 8 19 31 44 58 74 90 108 127 
24 1 9 19 32 45 60 76 93 111 130 
25 1 9 20 33 47 62 78 96 114 134 


2. Valeurs critiques unilatérales supérieures 
Elles sont égales à 
mA +2 +1)-w, 
où w est la valeur critique inférieure (donnée par la table précédente). 
3. Valeurs critiques bilatérales inférieures 
Pour le risque ©, ce sont les couples constitués par la valeur critique inférieure et la valeur 


critique supérieure relatives au risque 5 . Les deux tables précédentes sont donc utilisables 


pour le risque bilatéral & = 0,05 et &œ = 0,10. 


Statistique d'inversions de Mann-Whitney 


La variable aléatoire U (= Uri, m)) est le nombre d’inversions : valeurs du plus grand 
échantillon devant des valeurs du plus petit échantillon. 
La relation 

W=u+ MG + 1) 


permet de se rapporter aux tables de la statistique de Wilcoxon. 
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Valeurs critiques pour la variable aléatoire A, de Kolmogorov 


Table de la valeur absolue qui possède une probabilité 
donnée d'être dépassée 


En fonction de la taille n de l’échantillon et d’une probabilité à : valeurs de ô qui possèdent 


Table 8 


la probabilité © d’être dépassées en valeur absolue. 
Si A = SUP; [F,Gx) L FoX|, P(A; > Ô) = ©. 


0,10 0,05 0,01 

n 
1 0,9500 0,9750 0,9950 
2 0,7764 0,8419 0,9293 
3 0,6360 0,7076 0,8290 
4 0,5652 0,6239 0,7342 
5 0,5095 0,5633 0,6685 
6 0,4680 0,5193 0,6166 
7 0,4361 0,4834 0,5758 
8 0,4096 0,4543 0,5418 
9 0,3875 0,4300 0,5133 
10 0,3697 0,4092 0,4889 
11 0,3524 0,3912 0,4677 
12 0,3381 0,3754 0,4491 
13 0,3255 0,3614 0,4325 
14 0,3142 0,3489 0,4176 
15 0,3040 0,3376 0,4042 
16 0,2947 0,3273 0,3920 
17 0,2863 0,3180 0,3809 
18 0,2785 0,3094 0,3706 
19 0,2714 0,3014 0,3612 
20 0,2647 0,2941 0,3524 
21 0,2586 0,2872 0,3443 
22 0,2528 0,2809 0,3367 
23 0,2475 0,2749 0,3295 
24 0,2424 0,2693 0,3229 
25 0,2377 0,2640 0,3166 
30 0,2176 0,2417 0,2899 
35 0,2019 0,2242 0,2690 
40 0,1891 0,2101 0,2521 
45 0,1786 0,1984 0,2380 
50 0,1696 0,1884 0,2260 
60 0,1551 0,1723 0,2067 
70 0,1438 0,1598 0,1917 
80 0,1347 0,1496 0,1795 
90 0,1271 0,1412 0,1694 
100 0,1207 0,1340 0,1608 
1,223 1.358 1,629 

n > 100 n Un n 
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Ouvrages essentiellement de probabilités 


FOATA Dominique, FUCHS Aimé — Calcul des probabilités, Dunod, 1998-2003. 


Cours, exercices et problèmes corrigés. Orienté Licence de mathématiques 3° année et 
écoles d’ingénieurs. Très progressif et très pédagogique. 


OUVRARD Jean-Yves — Probabilités 1 : CAPES — Agrégation, Cassini, 1998. 


Beaucoup plus élémentaire que le titre ne le suggère (mais le tome 2 (Martingales, chaînes 
de Markov) est d’un niveau plus élevé). 


BOULEAU Nicolas — Probabilités de l'ingénieur, variables aléatoires et simulation, Hermann, 
1986-2002. 


Orienté modélisation et simulation. 


MAZLIAK Laurent — Cours de probabilités de l'ingénieur, exercices et problèmes corrigés, 
Hermann, 1998. 


Exercices gradués, jusqu'aux niveaux convergences et fonction caractéristique. 
LECOUTRE Jean-Pierre — Statistique et probabilités, Dunod, 2° édition, 2002. 


Orienté économie-gestion. Intéressant surtout pour sa partie probabilités (70 % de 
l’ensemble). Plutôt compact, assez poussé en théorie, nombreux exercices. 


Ouvrages mixtes 


SAPORTA Alain-Jacques — Probabilités, analyse des données et statistique, Technip, 1999, 
4° réimpression 2002. 


Une véritable bible très claire, très détaillée. Le niveau monte souvent mais le néophyte s’y 
retrouvera. Avec en prime une initiation très intéressante à l’« analyse des données ». 


WONNACOTT Thomas H. et WONNACOTT Ronald J. — Statistique, Economica, 4° édition, 1991. 


Orienté économie-gestion-sciences-médecine. Avec de très nombreux exemples concrets et 
de très nombreux exercices. Un gros pavé, riche et complet, aussi agréable à lire qu’à 
utiliser. Malgré son absence du titre, la partie probabilités est raisonnablement développée. 


DRESS François — TD Probabilités Statistique pour les sciences de la vie, Dunod, 2 édition, 
2002. 


Orienté sciences de la vie et de la terre. Cours et commentaires, exercices corrigés. 
FÉMÉNIAS Jean-Louis — Probabilités et statistique pour les sciences physiques, Dunod, 2003. 
Avec de très nombreux exemples théoriques et concrets pour la physique. 


CouTY Françoise, DEBORD Jean, FREDON Daniel — Probabilités et statistiques pour DEUG SV 
ET ST, PCEM, Pharmacie, Dunod, 1999. 


Résumés de cours, exercices et problèmes résolus, de la statistique descriptive à la régres- 
sion linéaire. 
VALLERON Alain-Jacques — Probabilités et statistique, Masson, 2001. 


Manuel d’enseignement orienté médecine-pharmacie. Aéré, pédagogique, nombreux exem- 
ples et exercices. 
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Ouvrages essentiellement de statistique 
CHARUELLE Pascal, PINAULT Yves — Statistique descriptive, Montchrestien, 2000. 


Orienté économie et administration. Compact, très clair, très complet sur le sujet, nombreux 
exemples détaillés. 


PY Bernard — Sfatistique descriptive, Economica, 4° édition, 1996. 
Orienté économie. Avec QCM et exercices corrigés. 


SCHWARTZ Daniel —- Méthodes statistiques à l’usage des médecins et biologistes, Flammarion 
Médecine-Sciences, 4° édition, 1993, actualisée 1996. 


Un livre ancien qui n’a pas vieilli. Élémentaire et complet, très bien expliqué, nombreux 
exemples détaillés et commentés. 


MEOT Alain — Introduction aux statistiques inférentielles, De Boeck, 2003. 
Orienté sciences humaines avec une réflexion de haute qualité. 


FRONTIER Serge, DAVOULT Dominique, GENTILHOMME Valérie, LAGADEUC Yvan — Sfatisti- 
ques pour les sciences de la vie et de l’environnement, Dunod, 2001. 


Présente un panorama très étendu des techniques, avec de nombreux commentaires et 
exemples très concrets. Une ouverture intéressante vers l’analyse des données. 


VALLERON Alain-Jacques — Introduction à la biostatistique, Masson, 1998. 


Beaucoup plus et beaucoup mieux qu’une introduction ! Les notions et techniques de base 
sont présentées et très intelligemment commentées, leur application est détaillée sur des 
exemples, le panorama est étendu même si certains choix sont personnels. 

DAGNELIE Pierre — Sfatistique théorique et appliquée, tome 1 : statistique descriptive et base 
de l’inférence statistique, De Boeck et Larcier, 1998. 
Un pavé très complet avec de bonnes explications. La structuration interne en 3 niveaux est 
un peu complexe mais tout à fait pertinente. Bibliographie très (trop ?) abondante. 


MORTON Richard F., HEBEL J. Richard, MCCARTER Robert J. — Épidémiologie et biostatis- 
tique, Aspen Publishers/Doin, 4° édition, 1996, réimpression 2002. 


Très élémentaire et très pédagogique, pour tout comprendre (plutôt que pour pratiquer). 


François Dress 
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500 définitions, formules et tests d’hypothèse 


Ce dictionnaire présente, en près de 500 entrées, toutes les 
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L'ouvrage propose tout à la fois les définitions des concepts de 
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et un formulaire très riche. Les définitions ont été rédigées en 
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possible, et en les faisant précéder très souvent par une courte 
introduction en langage courant. On trouvera enfin le 
fonctionnement commenté de plus de 25 tests d'hypothèses. 
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